Pokud není Dataset
je cached
pomocí spolehlivého úložiště (standardní Spark cache
vám poskytne jen slabé záruky) databáze může být přístupná vícekrát, pokaždé se zobrazí aktuální stav databáze. Od
vidět různé počty je očekávané chování.
Kromě toho, pokud je zdroj JDBC používán v distribuovaném režimu (s rozdělovacím sloupcem nebo predicates
), pak každé vlákno exekutora použije svou vlastní transakci. Výsledkem je stav Dataset
nemusí být zcela konzistentní.
Nepoužívejte JDBC. Můžete například
COPY
data do systému souborů a odtud je načíst.- Použijte řešení replikace dle vlastního výběru k vytvoření repliky vyhrazené pro analýzu a nastavte a pozastavte replikaci při použití analýzy dat.