AWS EMR PySpark se připojuje k mysql

Pokud chcete spustit jakoukoli Spark Job na Amazon EMR 3.x nebo EMR 4.x, musíte udělat následující věci:

1) Můžete zmínit spark-defaults.conf vlastnosti při bootstrappingu, tj. můžete změnit konfiguraci Driver Classpath a Executor Classpath vlastnost a také maximizeResourceAllocation (Pokud potřebujete, požádejte o další informace v komentářích.) dokumenty

2) Musíte si stáhnout všechny požadované jary, tj. (mysql-connector.jar a mariadb-connector.jar) ve vašem případě JDBC jary s konektorem MariaDB a MySQL do všech umístění třídy, jako je Spark, Yarn a Hadoop na všech uzlech, buď to je MASTER, CORE nebo TASK (Scenario Spark On Yarn pokrývá nejvíce) bootstrap scripts docs

3) A pokud vaše Spark Job komunikuje pouze z uzlu Driver do vaší databáze, možná budete potřebovat pouze použití --jars a nedá vám výjimku a funguje dobře.

4) Doporučujeme také vyzkoušet Master jako shluk příze místo místní nebo klient příze

Ve vašem případě, pokud používáte MariaDB nebo MySQL, zkopírujte své sklenice na $SPARK_HOME/lib , $HADOOP_HOME/lib atd. na každém uzlu vašeho clusteru a pak to vyzkoušejte.

Později můžete použít Akce bootstrapu zkopírujte své nádoby na všechny uzly v době vytváření clusteru.

Pro více informací prosím napište níže.