sql >> Databáze >  >> RDS >> PostgreSQL

Použití pysparku pro připojení k PostgreSQL

Stáhněte si ovladač PostgreSQL JDBC z https://jdbc.postgresql.org/download.html

Poté nahraďte konfigurační hodnoty databáze svými.

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.jars", "/path_to_postgresDriver/postgresql-42.2.5.jar") \
    .getOrCreate()

df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:postgresql://localhost:5432/databasename") \
    .option("dbtable", "tablename") \
    .option("user", "username") \
    .option("password", "password") \
    .option("driver", "org.postgresql.Driver") \
    .load()

df.printSchema()

Více informací:https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html



  1. Vytváření vysoce dostupné databáze pro Moodle pomocí MariaDB (Replication &MariaDB Cluster)

  2. Oracle 11g na Mac OS X

  3. Top 5 nástrojů pro modelování dat pro SQL Server

  4. ORA-01658:nelze vytvořit INITIAL rozsah pro segment v tabulkovém prostoru TS_DATA