sql >> Databáze >  >> RDS >> PostgreSQL

Vytvořte sql tabulku z datového rámce dask pomocí map_partitions a pd.df.to_sql

Jednoduše jste vytvořili datový rámec, který je předpisem práce, která má být vykonána, ale neprovedli jste ji. Pro spuštění musíte zavolat .compute() na výsledku.

Všimněte si, že výstup zde ve skutečnosti není datový rámec, každý oddíl je vyhodnocen jako None (protože to_sql nemá žádný výstup), takže může být čistší vyjádřit to pomocí df.to_delayed , něco jako

dto_sql = dask.delayed(pd.DataFrame.to_sql)
out = [dto_sql(d, 'table_name', db_url, if_exists='append', index=True)
       for d in ddf.to_delayed()]
dask.compute(*out)

Všimněte si také, že to, zda dosáhnete dobrého paralelismu, bude záviset na ovladači databáze a samotném datovém systému.



  1. Chyba 'datetime2' při použití entity framework ve VS 2010 .net 4.0

  2. Databázový dotaz pro vyhledávání pomocí adresy

  3. Jak mohu ověřit data před vložením/aktualizací pomocí SQL Serveru?

  4. Velmi pomalé mazání na bázi mysql s poddotazem