Fix reading partition value columns larger than cudf column size limit #9230

parthosa · 2023-09-13T00:23:43Z

This PR fixes the issue when readers create partition value column that exceeds the cudf column size limit. This is fixed by checking size and creating multiple batches.

Tasks:

Related Issue:

[FEA] Optimize configuration handling in BatchWithPartitionData #9467

Performance Metrics:

Details:

Workload Information -
- Application: Basic Spark App that writes columns with variable-length strings as Parquet and reads it.
- Spark Version: 3.1.1
- Spark RAPIDS Version: 23.08
- GPU: RTX A5000
cuDF Column Limit: 2GB
Size of ColumnVector = Num Rows * Size of Column Value

# Partition Cols	# Rows (million)	Largest Column Value (bytes)	Largest Column Vector (GB)	CPU Time (sec)	GPU Time (sec) (23.08)	GPU Time (sec) (current branch)	Speed Up (CPU/GPU current branch)
1	100	150	14.0	132.0	cuDF error	7.5	17.6
2	100	150	14.0	125.0	cuDF error	8.0	15.6
3	100	150	14.0	122.0	cuDF error	8.0	15.3
2	100	75	7.0	72.0	cuDF error	4.1	17.6
2	100	15	1.4	37.0	2.0	2.0	18.5
1	10	150	1.4	8.2	1.7	1.7	4.8

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuColumnarBatchIterator.scala

…size Signed-off-by: Partho Sarthi <[email protected]>

Signed-off-by: Partho Sarthi <[email protected]>

tests/src/test/scala/com/nvidia/spark/rapids/GpuMultiFileReaderSuite.scala

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuColumnarBatchIterator.scala

…e unit tests Signed-off-by: Partho Sarthi <[email protected]>

Signed-off-by: Partho Sarthi <[email protected]>

tgravescs

got most of the way through it, most of comments are just on better documentation, some of where I left it lacking

...ugin/src/main/scala/com/nvidia/spark/rapids/ColumnarPartitionReaderWithPartitionValues.scala

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuMultiFileReader.scala

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuColumnarBatchIterator.scala

...ugin/src/main/scala/com/nvidia/spark/rapids/ColumnarPartitionReaderWithPartitionValues.scala

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuMultiFileReader.scala

Signed-off-by: Partho Sarthi <[email protected]>

...ugin/src/main/scala/com/nvidia/spark/rapids/ColumnarPartitionReaderWithPartitionValues.scala

Signed-off-by: Partho Sarthi <[email protected]>

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuMultiFileReader.scala

Signed-off-by: Partho Sarthi <[email protected]>

…ns vs Single Value Partitions Signed-off-by: Partho Sarthi <[email protected]>

- Create seperate case class and iterator to handle split cases Signed-off-by: Partho Sarthi <[email protected]>

Signed-off-by: Partho Sarthi <[email protected]>

...ugin/src/main/scala/com/nvidia/spark/rapids/ColumnarPartitionReaderWithPartitionValues.scala

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuColumnarBatchIterator.scala

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuMultiFileReader.scala

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuOrcScan.scala

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuParquetScan.scala

sql-plugin/src/main/scala/com/nvidia/spark/rapids/SplitColumnarBatchProcessor.scala

Signed-off-by: Partho Sarthi <[email protected]>

sql-plugin/src/main/scala/com/nvidia/spark/rapids/BatchWithPartitionData.scala