sql >> Databáze >  >> RDS >> Mysql

Spark:Čtení velké tabulky MySQL do DataFrame se nezdaří

Zdá se, že Spark JDBC API se rozvětvuje a načítá všechna data z tabulky MySQL do paměti bez. Když se tedy pokusíte načíst velkou tabulku, měli byste nejprve použít klonová data rozhraní Spark API do HDFS (k zachování struktury schématu by se měl použít JSON):

spark.read.jdbc(jdbcUrl, tableName, prop)
       .write()
       .json("/fileName.json");

Pak můžete místo toho normálně pracovat na HDFS.

spark.read().json("/fileName.json")
       .createOrReplaceTempView(tableName);



  1. proč rozdělujeme mysql tabulku na mnoho menších tabulek?

  2. Jak spustit více instancí MySQL na stejném počítači

  3. Ukládání dat kódovaných base64 jako datový typ BLOB nebo TEXT

  4. Je primární klíč automaticky indexován v MySQL?