Zdá se, že Spark JDBC API se rozvětvuje a načítá všechna data z tabulky MySQL do paměti bez. Když se tedy pokusíte načíst velkou tabulku, měli byste nejprve použít klonová data rozhraní Spark API do HDFS (k zachování struktury schématu by se měl použít JSON):
spark.read.jdbc(jdbcUrl, tableName, prop)
.write()
.json("/fileName.json");
Pak můžete místo toho normálně pracovat na HDFS.
spark.read().json("/fileName.json")
.createOrReplaceTempView(tableName);