Díky za váš čas; Rozhodně se snažím vážit si toho vašeho. V části 1 jsme diskutovali o knihovnách Apache Spark, komponentách Spark, jako je Driver, DAG Scheduler, Task Scheduler a Worker. Nyní v části 2 – budeme diskutovat o základech konceptů Spark, jako jsou odolné distribuované datové sady, sdílené proměnné, SparkContext, transformace, akce a výhody používání Spark spolu s příklady a kdy použít Spark.
RDD – odolné distribuované datové sady
Jsou to kolekce serializovatelných prvků a taková kolekce může být rozdělena, v takovém případě je uložena ve více uzlech.
Může být uložen v paměti nebo na disku.
Spark používá RDD ke snížení I/O a udržení zpracovaných dat v paměti
RDD pomáhá s tolerováním selhání uzlů a nemusí restartovat celý proces nebo výpočet
Obvykle je vytvořen ze vstupního formátu Hadoop nebo z transformace použité na existujících RDD.
RDD ukládají svou datovou linii; pokud dojde ke ztrátě dat, Spark přehraje rodokmen, aby znovu vytvořil ztracené RDD.
RDD jsou neměnné.
Sdílené proměnné
Spark má dva typy proměnných, které umožňují sdílení informací mezi prováděcími uzly.
Dvě proměnné jsou vysílací a akumulátorové proměnné.
Všechny proměnné vysílání jsou odesílány do uzlů vzdáleného provádění, podobně jako objekty konfigurace MapReduce.
Všechny akumulátory jsou také odesílány do vzdálených uzlů provádění s omezením, že můžeme přidat pouze proměnné akumulátoru, podobně jako čítače MapReduce.
Zajistit kontext
Je to objekt, který představuje připojení ke clusteru Spark.
Používá se k vytváření RDD, vysílání dat a inicializaci akumulátorů.
Proměny
Jsou to funkce, které berou jeden RDD a vracejí další.
Transformace nikdy nezmění svůj vstup, pouze vrátí upravený RDD.
Je to vždy líné, takže své výsledky nepočítají. Místo volání transformační funkce pouze vytvoří nový RDD.
Celá sada výše uvedených transformací se provede při volání akce.
Ve Sparku existuje mnoho transformací – map(), filter(), KeyBy(), Join(), groupByKey(), sort().
Akce
Akce jsou metody, které převezmou RDD a provedou výpočet a vrátí výsledek do aplikace ovladače.
Akce spustí výpočet transformací a výsledkem může být kolekce, hodnoty na obrazovku, hodnoty uložené do souboru.
Akce nikdy nevrátí RDD.
Výhody
- Jednoduchost
- Všestrannost
- Snížené I/O disku
- Úložiště
- Vícejazyčné
- Nezávislost správce zdrojů
- Interaktivní shell (REPL)
Spark, stejně jako ostatní nástroje pro velká data, je výkonný, schopný a dobře se hodí k řešení řady problémů v oblasti analýzy a velkých dat.
Tento článek se původně objevil zde. Znovu publikováno se svolením. Své stížnosti na porušení autorských práv odešlete zde.