Nechte se zapálit Apache Spark

Díky za váš čas; Rozhodně se snažím vážit si toho vašeho. V části 1 jsme diskutovali o knihovnách Apache Spark, komponentách Spark, jako je Driver, DAG Scheduler, Task Scheduler a Worker. Nyní v části 2 – budeme diskutovat o základech konceptů Spark, jako jsou odolné distribuované datové sady, sdílené proměnné, SparkContext, transformace, akce a výhody používání Spark spolu s příklady a kdy použít Spark.

RDD – odolné distribuované datové sady

Jsou to kolekce serializovatelných prvků a taková kolekce může být rozdělena, v takovém případě je uložena ve více uzlech.

Může být uložen v paměti nebo na disku.

Spark používá RDD ke snížení I/O a udržení zpracovaných dat v paměti

RDD pomáhá s tolerováním selhání uzlů a nemusí restartovat celý proces nebo výpočet

Obvykle je vytvořen ze vstupního formátu Hadoop nebo z transformace použité na existujících RDD.

RDD ukládají svou datovou linii; pokud dojde ke ztrátě dat, Spark přehraje rodokmen, aby znovu vytvořil ztracené RDD.

RDD jsou neměnné.

Sdílené proměnné

Spark má dva typy proměnných, které umožňují sdílení informací mezi prováděcími uzly.

Dvě proměnné jsou vysílací a akumulátorové proměnné.

Všechny proměnné vysílání jsou odesílány do uzlů vzdáleného provádění, podobně jako objekty konfigurace MapReduce.

Všechny akumulátory jsou také odesílány do vzdálených uzlů provádění s omezením, že můžeme přidat pouze proměnné akumulátoru, podobně jako čítače MapReduce.

Zajistit kontext

Je to objekt, který představuje připojení ke clusteru Spark.

Používá se k vytváření RDD, vysílání dat a inicializaci akumulátorů.

Proměny

Jsou to funkce, které berou jeden RDD a vracejí další.

Transformace nikdy nezmění svůj vstup, pouze vrátí upravený RDD.

Je to vždy líné, takže své výsledky nepočítají. Místo volání transformační funkce pouze vytvoří nový RDD.

Celá sada výše uvedených transformací se provede při volání akce.

Ve Sparku existuje mnoho transformací – map(), filter(), KeyBy(), Join(), groupByKey(), sort().

Akce

Akce jsou metody, které převezmou RDD a provedou výpočet a vrátí výsledek do aplikace ovladače.

Akce spustí výpočet transformací a výsledkem může být kolekce, hodnoty na obrazovku, hodnoty uložené do souboru.

Akce nikdy nevrátí RDD.

Výhody

Jednoduchost
Všestrannost
Snížené I/O disku
Úložiště
Vícejazyčné
Nezávislost správce zdrojů
Interaktivní shell (REPL)

Spark, stejně jako ostatní nástroje pro velká data, je výkonný, schopný a dobře se hodí k řešení řady problémů v oblasti analýzy a velkých dat.