[#1550] feat(spark-connector) support partition,bucket, sortorder table #2540

FANNG1 · 2024-03-15T00:25:12Z

What changes were proposed in this pull request?

add partition, distribution, sort order support for spark connector

Why are the changes needed?

Fix: #1550

Does this PR introduce any user-facing change?

no

How was this patch tested?

add UT and IT, also verified in local env.

...ctor/src/test/java/com/datastrato/gravitino/spark/connector/TestSparkTransformConverter.java

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java

FANNG1 · 2024-03-18T03:49:38Z

It's ready to review now, @jerryshao @qqqttt123 @yuqi1129 @mchades @diqiu50 please help to review when you are free.

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java

spark-connector/src/main/java/com/datastrato/gravitino/spark/connector/ConnectorConstants.java

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java

...-test/src/test/java/com/datastrato/gravitino/integration/test/util/spark/SparkTableInfo.java

...k-connector/src/main/java/com/datastrato/gravitino/spark/connector/table/SparkBaseTable.java

FANNG1 · 2024-03-20T04:05:07Z

@jerryshao , please help to review when you are free, thanks

jerryshao · 2024-03-20T05:02:05Z

spark-connector/build.gradle.kts

@@ -27,6 +28,10 @@ dependencies {
  implementation("org.apache.kyuubi:kyuubi-spark-connector-hive_$scalaVersion:$kyuubiVersion")
  implementation("org.apache.spark:spark-catalyst_$scalaVersion:$sparkVersion")
  implementation("org.apache.spark:spark-sql_$scalaVersion:$sparkVersion")
+  implementation("org.scala-lang.modules:scala-java8-compat_$scalaVersion:$scalaJava8CompatVersion")


Does it work in jdk 11 or 17?

yes, it's A Java 8 (and up) compatibility kit for Scala. which could pass IT.

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java

FANNG1 · 2024-03-21T01:54:13Z

split toGravitinoTransform to two interfaces toGravitinoPartitions and toGravitinoDistributionAndSortorders which is not suitable to split again because Spark SortedBucketTransform contains both distribution and sortorders . @jerryshao @yuqi1129 @mchades please help to review again.

...rc/test/java/com/datastrato/gravitino/integration/test/util/spark/SparkTableInfoChecker.java

...-test/src/test/java/com/datastrato/gravitino/integration/test/util/spark/SparkTableInfo.java

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java

yuqi1129 · 2024-03-21T07:12:47Z

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java

+  // Gravitino use ["a","b"] for nested fields while Spark use "a.b";
+  private static String getFieldNameFromGravitinoNamedReference(
+      NamedReference gravitinoNamedReference) {
+    return String.join(ConnectorConstants.DOT, gravitinoNamedReference.fieldName());


@mchades Does Gravitino support nested fields? I remember ["a","b"], a means the table reference and b is the real column name?

No, the array of fieldName is used to represent access nested fields. For example, the column a is struct type{b int, c string}, then we can use a.b or a.c to reference a nested field

integration-test/src/test/java/com/datastrato/gravitino/integration/test/spark/SparkEnvIT.java

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java

jerryshao · 2024-03-22T00:34:21Z

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java

+        bucketNum, createSparkNamedReference(bucketFields), createSparkNamedReference(sortFields));
+  }
+
+  // columnName could be "a" or "a.b" for nested column


So do you need to handle nested column case here?

I prefer to handle it, because both spark and gravitino interfaces support nested columns

So I don't see you do it here?

Sorry, I see the code there, please ignore.

FANNG1 · 2024-03-22T04:51:44Z

@mchades @qqqttt123 @yuqi1129 @jerryshao @diqiu50 all comments are addressed, please help to review again.

jerryshao · 2024-03-22T17:02:55Z

I have no further comment, I think we can go to unblock other PRs. If there's missing parts. We can fix in another PR.

…er table (apache#2540) ### What changes were proposed in this pull request? add partition, distribution, sort order support for spark connector ### Why are the changes needed? Fix: apache#1550 ### Does this PR introduce _any_ user-facing change? no ### How was this patch tested? add UT and IT, also verified in local env.

FANNG1 marked this pull request as draft March 15, 2024 00:25

FANNG1 force-pushed the partition branch 3 times, most recently from c8cf9ff to fc2770f Compare March 15, 2024 09:42

FANNG1 changed the title ~~[SIP][Don't merge] feat(spark-connector) support partition,bucket, sortorder table~~ [#1550] feat(spark-connector) support partition,bucket, sortorder table Mar 15, 2024

FANNG1 self-assigned this Mar 15, 2024

FANNG1 force-pushed the partition branch 2 times, most recently from 3086089 to fcbe74b Compare March 18, 2024 03:07

FANNG1 marked this pull request as ready for review March 18, 2024 03:16

FANNG1 requested review from jerryshao, diqiu50, mchades, qqqttt123 and yuqi1129 March 18, 2024 03:16

FANNG1 commented Mar 18, 2024

View reviewed changes

...ctor/src/test/java/com/datastrato/gravitino/spark/connector/TestSparkTransformConverter.java Outdated Show resolved Hide resolved

FANNG1 commented Mar 18, 2024

View reviewed changes

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java Show resolved Hide resolved

yuqi1129 reviewed Mar 18, 2024

View reviewed changes

qqqttt123 reviewed Mar 18, 2024

View reviewed changes

...-test/src/test/java/com/datastrato/gravitino/integration/test/util/spark/SparkTableInfo.java Outdated Show resolved Hide resolved

qqqttt123 reviewed Mar 18, 2024

View reviewed changes

...-test/src/test/java/com/datastrato/gravitino/integration/test/util/spark/SparkTableInfo.java Outdated Show resolved Hide resolved

FANNG1 force-pushed the partition branch 2 times, most recently from 9644609 to d404224 Compare March 20, 2024 02:11

caican00 reviewed Mar 20, 2024

View reviewed changes

...k-connector/src/main/java/com/datastrato/gravitino/spark/connector/table/SparkBaseTable.java Show resolved Hide resolved

jerryshao reviewed Mar 20, 2024

View reviewed changes

mchades reviewed Mar 20, 2024

View reviewed changes

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java Show resolved Hide resolved

mchades reviewed Mar 20, 2024

View reviewed changes

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java Show resolved Hide resolved

yuqi1129 reviewed Mar 21, 2024

View reviewed changes

mchades reviewed Mar 21, 2024

View reviewed changes

...onnector/src/main/java/com/datastrato/gravitino/spark/connector/SparkTransformConverter.java Outdated Show resolved Hide resolved

jerryshao reviewed Mar 22, 2024

View reviewed changes

FANNG1 added 12 commits March 22, 2024 12:12

add parition

f92f1e8

use DTOConverters.toDTO

5ec6429

xx

5b937a8

xx

8f69cb6

split transform to partition and bucket

84a284b

fix comment

9dbf3ae

fix comment

24a56b3

fix comment

bbc22b7

fix comment

c11f886

fix comment

b9d1990

fix comment

2ae834c

fix comment

d5c64aa

FANNG1 force-pushed the partition branch from 3355012 to d5c64aa Compare March 22, 2024 04:19

jerryshao approved these changes Mar 22, 2024

View reviewed changes

jerryshao merged commit d2ed24f into apache:main Mar 22, 2024
14 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[#1550] feat(spark-connector) support partition,bucket, sortorder table #2540

[#1550] feat(spark-connector) support partition,bucket, sortorder table #2540

FANNG1 commented Mar 15, 2024 •

edited

Loading

FANNG1 commented Mar 18, 2024

FANNG1 commented Mar 20, 2024

jerryshao Mar 20, 2024

FANNG1 Mar 20, 2024 •

edited

Loading

FANNG1 commented Mar 21, 2024

yuqi1129 Mar 21, 2024

mchades Mar 21, 2024

jerryshao Mar 22, 2024

FANNG1 Mar 22, 2024

jerryshao Mar 22, 2024

jerryshao Mar 22, 2024

FANNG1 commented Mar 22, 2024

jerryshao commented Mar 22, 2024

[#1550] feat(spark-connector) support partition,bucket, sortorder table #2540

[#1550] feat(spark-connector) support partition,bucket, sortorder table #2540

Conversation

FANNG1 commented Mar 15, 2024 • edited Loading

What changes were proposed in this pull request?

Why are the changes needed?

Does this PR introduce any user-facing change?

How was this patch tested?

FANNG1 commented Mar 18, 2024

FANNG1 commented Mar 20, 2024

jerryshao Mar 20, 2024

Choose a reason for hiding this comment

FANNG1 Mar 20, 2024 • edited Loading

Choose a reason for hiding this comment

FANNG1 commented Mar 21, 2024

yuqi1129 Mar 21, 2024

Choose a reason for hiding this comment

mchades Mar 21, 2024

Choose a reason for hiding this comment

jerryshao Mar 22, 2024

Choose a reason for hiding this comment

FANNG1 Mar 22, 2024

Choose a reason for hiding this comment

jerryshao Mar 22, 2024

Choose a reason for hiding this comment

jerryshao Mar 22, 2024

Choose a reason for hiding this comment

FANNG1 commented Mar 22, 2024

jerryshao commented Mar 22, 2024

FANNG1 commented Mar 15, 2024 •

edited

Loading

FANNG1 Mar 20, 2024 •

edited

Loading