sql >> Databáze >  >> RDS >> PostgreSQL

Proč různé výsledky počítání při po sobě jdoucích čteních?

Pokud není Dataset je cached pomocí spolehlivého úložiště (standardní Spark cache vám poskytne jen slabé záruky) databáze může být přístupná vícekrát, pokaždé se zobrazí aktuální stav databáze. Od

vidět různé počty je očekávané chování.

Kromě toho, pokud je zdroj JDBC používán v distribuovaném režimu (s rozdělovacím sloupcem nebo predicates ), pak každé vlákno exekutora použije svou vlastní transakci. Výsledkem je stav Dataset nemusí být zcela konzistentní.

Nepoužívejte JDBC. Můžete například

  • COPY data do systému souborů a odtud je načíst.
  • Použijte řešení replikace dle vlastního výběru k vytvoření repliky vyhrazené pro analýzu a nastavte a pozastavte replikaci při použití analýzy dat.



  1. Jak potlačit INFO zprávy při spouštění skriptů psql

  2. Dotazování databáze MySQL z funkce NodeJS AWS Lambda

  3. Jak získat druhý argument Round() pro práci se sloupci?

  4. Importujte více souborů CSV na SQL Server ze složky