Proč různé výsledky počítání při po sobě jdoucích čteních?

Pokud není Dataset je cached pomocí spolehlivého úložiště (standardní Spark cache vám poskytne jen slabé záruky) databáze může být přístupná vícekrát, pokaždé se zobrazí aktuální stav databáze. Od

vidět různé počty je očekávané chování.

Kromě toho, pokud je zdroj JDBC používán v distribuovaném režimu (s rozdělovacím sloupcem nebo predicates ), pak každé vlákno exekutora použije svou vlastní transakci. Výsledkem je stav Dataset nemusí být zcela konzistentní.

Nepoužívejte JDBC. Můžete například

COPY data do systému souborů a odtud je načíst.
Použijte řešení replikace dle vlastního výběru k vytvoření repliky vyhrazené pro analýzu a nastavte a pozastavte replikaci při použití analýzy dat.