# Spark 集成

# 使用要求

  • Java 8, Scala 2.11/2.12, Spark 2.4
  • 或者 Java 8/11, Scala 2.12, Spark 3.0/3.1

Spark 3.2 推荐使用 Spark ClickHouse Connector (opens new window)

注意: Spark 2.3.x(EOL) 理论上也支持。但我们只对 Java 8 和 Java 11 做测试,Spark 自 3.0.0 起官方支持 Java 11。

# 导入包

  • Gradle
// 自 2.4.0 起可用
compile "com.github.housepower:clickhouse-integration-spark_2.11:${clickhouse_native_jdbc_version}"
  • Maven
<!-- 自 2.4.0 起可用 -->
<dependency>
    <groupId>com.github.housepower</groupId>
    <artifactId>clickhouse-integration-spark_2.11</artifactId>
    <version>${clickhouse-native-jdbc.version}</version>
</dependency>

# 示例

请确保在使用前注册 ClickHouseDialect

    JdbcDialects.registerDialect(ClickHouseDialect)

读取 ClickHouse 表数据到 DataFrame

val df = spark.read
    .format("jdbc")
    .option("driver", "com.github.housepower.jdbc.ClickHouseDriver")
    .option("url", "jdbc:clickhouse://127.0.0.1:9000")
    .option("user", "default")
    .option("password", "")
    .option("dbtable", "db.test_source")
    .load

将 DataFrame 写入 ClickHouse 表 (支持 truncate table)

df.write
    .format("jdbc")
    .mode("overwrite")
    .option("driver", "com.github.housepower.jdbc.ClickHouseDriver")
    .option("url", "jdbc:clickhouse://127.0.0.1:9000")
    .option("user", "default")
    .option("password", "")
    .option("dbtable", "db.test_target")
    .option("truncate", "true")
    .option("batchsize", 10000)
    .option("isolationLevel", "NONE")
    .save

更多参考 SparkOnClickHouseITest (opens new window)