sql >> Databáze >  >> RDS >> PostgreSQL

SparkSQL PostgresQL Dataframe oddíly

K výpočtu přírůstku nebo rozdělení pro každou paralelní úlohu se v podstatě používá dolní a horní mez a počet oddílů.

Řekněme, že tabulka má sloupec oddílu „rok“ a obsahuje data od roku 2006 do roku 2016.

Pokud definujete počet oddílů jako 10, s dolní hranicí 2006 a horní hranicí 2016, budete mít každý úkol načítat data pro svůj vlastní rok - ideální případ.

I když nesprávně určíte spodní a/nebo horní hranici, např. nastavte nižší =0 a horní =2016, dojde ke zkreslení v přenosu dat, ale žádná data „neztratíte“ ani se nepodaří načíst, protože:

První úloha načte data za rok <0.

Druhá úloha načte data za rok mezi 0 a 2016/10.

Třetí úkol načte data za rok mezi 2016/10 a 2*2016/10.

...

A poslední úkol bude mít podmínku kde s rokem->2016.

T.



  1. Jak získám SQL*Plus k vytváření pohledů / tabulek s prázdným řádkem uprostřed příkazu create?

  2. Změna hodnoty vstupního pole, když uživatel vybere možnost z výběrového pole

  3. Neplatný název běžného uživatele nebo role

  4. Multithreading v MySQL?