sql >> Databáze >  >> NoSQL >> MongoDB

jak uložit dataframe v mongodb pomocí pyspark?

Efektivní způsob, jak zapisovat do mongodb z pysparku, je použít MongoDB Spark Connector . Connector převede data do formátu BSON a uloží je do mongodb. Řekněme, že máte datový rámec spark s názvem df, který chcete uložit do mongodb. Můžete zkusit:

from pyspark.sql import SparkSession, SQLContext
from pyspark import SparkConf, SparkContext
sc = SparkContext()
spark = SparkSession(sc)   


df.write.format("com.mongodb.spark.sql.DefaultSource").mode("append").option("spark.mongodb.output.uri","mongodb://username:[email protected]_details:27017/db_name.collection_name?authSource=admin").save()

Pokud používáte notebook, napište to nahoře-

%%configure
{"conf": {"spark.jars.packages": "org.mongodb.spark:mongo-spark-connector_2.11:2.3.2"}}

Pokud používáte příkaz spark-submit:

spark-submit --conf spark.pyspark.python=/usr/bin/anaconda/envs/py35/bin/python3.5 --packages org.mongodb.spark:mongo-spark-connector_2.11:2.3.1 file_name.py


  1. Importujte data do svých nově vytvořených instancí MongoDB

  2. Vyberte záznamy odpovídající hodnotě concat dvou polí v mongodb

  3. Porozumění hledání v Node/Mongo

  4. Nelze se připojit k docker mongo