Hadoop – Výukové programy Apache Hadoop pro začátečníky

Hlavním cílem tohoto Hadoopu Tutoriál má popsat každý aspekt Apache Hadoop Framework. V podstatě je tento tutoriál navržen tak, aby bylo snadné naučit se hadoop od základů.

V tomto článku se pokusíme odpovědět na otázky, jako je co je Big data Hadoop, Co je potřeba Hadoop, jaká je historie Hadoopu a nakonec výhody a nevýhody frameworku Apache Hadoop.

Doufáme, že po přečtení tohoto článku budete mít jasno v tom, co je Hadoop Framework.

Co je Hadoop?

Jedná se o open source softwarový rámec pro distribuované ukládání a zpracování velkého množství datových sad. Open source znamená, že je volně dostupný a dokonce můžeme změnit jeho zdrojový kód podle vašich požadavků.

Umožňuje také spouštět aplikace na systému s tisíci uzly. Jeho distribuovaný souborový systém poskytuje rychlé přenosové rychlosti dat mezi uzly. Umožňuje také pokračovat v provozu systému v případě selhání uzlu.

Hadoop poskytuje-

Vrstva úložiště – HDFS
Systém pro dávkové zpracování – MapReduce
Vrstva správy zdrojů – YARN

Hadoop – Historie

V roce 2003 Google spouští projekt Nutch zvládnout miliardy vyhledávání. Také pro indexování milionů webových stránek. V říjnu 2003 společnost Google zveřejnila GFS (Google File System) papír, z tohoto papíru vznikl Hadoop.

V roce 2004 společnost Google vydala papír s MapReduce . A v roce 2005 použil Nutch k provádění operací GFS a MapReduce.

V roce 2006 počítačoví vědci Doug Cutting a Mike Cafarella vytvořil Hadoop. V únoru 2006 se Doug Cutting připojil k Yahoo . To poskytlo zdroje a specializovaný tým k přeměně Hadoopu na systém, který běží ve webovém měřítku. V roce 2007 společnost Yahoo začala používat Hadoop na clusteru se 100 uzly.

V lednu 2008 vytvořil Hadoop svůj vlastní projekt nejvyšší úrovně na Apache, čímž potvrdil svůj úspěch. Kromě Yahoo! používá Hadoop mnoho dalších společností, jako jsou New York Times a Facebook.

V dubnu 2008 překonal Hadoop světový rekord a stal se nejrychlejším systémem pro třídění terabajtu dat. Běží na clusteru s 910 uzly, seřazený jeden terabajt za 209 sekund.

V prosinci 2011 vydala Apache Hadoop verzi 1.0. V srpnu 2013 byla k dispozici verze 2.0.6. Později v červnu 2017 je k dispozici Apache Hadoop 3.0.0-alpha4. ASF (Apache Software Foundation) spravuje a udržuje rámec a ekosystém technologií Hadoop.

Proč Hadoop?

Jak jsme se naučili Úvod, Nyní se dozvíme, co je potřeba Hadoop?

Objevil se jako řešení „Big Data “problémy-

a. Úložiště pro velká data – HDFS Tento problém vyřešil. Ukládá velká data distribuovaným způsobem. HDFS také ukládá každý soubor jako bloky. Blok je nejmenší jednotka dat v souborovém systému.

Předpokládejme, že máte 512 MB dat. A nakonfigurovali jste HDFS tak, že vytvoří 128 Mb datových bloků. HDFS tedy rozděluje data do 4 bloků (512/128=4) a ukládá jej napříč různými datovými uzly. Také replikuje datové bloky na různých datových uzlech.

Ukládání velkých dat proto není problém.

b. Škálovatelnost – Řeší také problém škálování. Zaměřuje se především na horizontální škálování spíše než vertikální škálování. Podle potřeby můžete do clusteru HDFS přidat další datové uzly. Místo navyšování zdrojů datových uzlů.

Tím se dramaticky zvyšuje výkon.

c. Ukládání různých dat – HDFS tento problém vyřešil. HDFS může ukládat všechny druhy dat (strukturovaná, polostrukturovaná nebo nestrukturovaná). Také následuje mnoho modelů napsat jednou a přečíst .

Díky tomu můžete zapsat jakýkoli druh dat jednou a můžete je číst vícekrát, abyste našli statistiky.

d. Rychlost zpracování dat – To je hlavní problém velkých dat. Chcete-li tento problém vyřešit, přesuňte výpočet na data namísto dat na výpočty. Tento princip je Lokalita dat .

Základní součásti Hadoop

Nyní se podrobně naučíme základní komponentu Apache Hadoop. Má 3 základní komponenty-

HDFS
MapReduce
YARN (ještě další vyjednavač zdrojů)

Pojďme si tyto základní komponenty probrat jednu po druhé.

a. HDFS

Distribuovaný systém souborů Hadoop (HDFS) je primární úložný systém Hadoop. HDFS ukládá velmi velké soubory běžící na clusteru komoditního hardwaru. Řídí se principem ukládání menšího počtu velkých souborů spíše než velkého počtu malých souborů.

Spolehlivě ukládá data i v případě selhání hardwaru. Poskytuje vysoce výkonný přístup k aplikaci prostřednictvím paralelního přístupu.

Součásti HDFS:

NameNode – Funguje jako Master v clusteru. Namenode ukládá metadata . Množství bloků, replik a dalších detailů. Metadata jsou přítomna v paměti hlavního serveru. NameNode udržuje a také spravuje podřízené uzly a přiděluje jim úkoly. Měl by být nasazen na spolehlivém hardwaru, protože je ústředním prvkem HDFS.
DataNode – V clusteru funguje jako Slave. V HDFS je DataNode zodpovědný za ukládání skutečných dat v HDFS. DataNode provádí operace čtení a zápisu podle požadavku pro klienty. DataNodes lze také nasadit na komoditní hardware.

b. MapReduce

MapReduce je vrstva zpracování dat Hadoop. Zpracovává velká strukturovaná i nestrukturovaná data uložená v HDFS. MapReduce také paralelně zpracovává obrovské množství dat.

Dělá to rozdělením úkolu (předloženého úkolu) na sadu nezávislých úkolů (dílčího úkolu). MapReduce funguje tak, že rozděluje zpracování do fází:Map and Reduce.

Mapa – Je to první fáze zpracování, kde specifikujeme veškerý složitý logický kód.
Snížit – Je to druhá fáze zpracování. Zde specifikujeme odlehčené zpracování, jako je agregace/součet.

c. PŘÍZE

YARN poskytuje správu zdrojů. Je to operační systém Hadoop. Je odpovědný za řízení a monitorování pracovní zátěže a také za zavádění bezpečnostních kontrol. Apache YARN je také centrální platforma pro poskytování nástrojů pro správu dat napříč clustery.

YARN umožňuje více motorů pro zpracování dat, jako je streamování v reálném čase, dávkové zpracování atd.

Součásti PŘÍZE:

Správce zdrojů – Je to komponenta na úrovni clusteru a běží na hlavním počítači. Spravuje zdroje a naplánuje aplikace běžící na horní části YARN. Má dvě součásti:Scheduler &Application Manager.
Správce uzlů – Je to komponenta na úrovni uzlu. Běží na každém podřízeném stroji. Neustále komunikuje se Správcem zdrojů, aby zůstal aktuální

Výhody Hadoop

Pojďme si nyní probrat různé výhody Hadoopu k vyřešení problémů s velkými daty.

Škálovatelnost – Přidáním uzlů můžeme snadno rozšířit náš systém tak, aby zpracovával více dat.
Flexibilita – V tomto rámci nemusíte data před uložením předzpracovávat. Můžete uložit tolik dat, kolik chcete, a rozhodnout se, jak je později použít.
Nízkonákladové – Open source framework je zdarma a běží na levném komoditním hardwaru.
Tolerance chyb – Pokud uzly klesnou, úlohy jsou automaticky přesměrovány na jiné uzly.
Výpočetní výkon – Je to distribuovaný výpočetní model zpracovává velká data rychle. Čím více výpočetních uzlů spotřebováváte, tím větší máte výpočetní výkon.

Nevýhody Hadoop

Některé nevýhody Apache Hadoop Framework jsou uvedeny níže-

Bezpečnostní obavy – Může to být náročné při správě složité aplikace. Pokud uživatel neví, jak povolit platformu, která spravuje platformu, mohou být vaše data velkým rizikem. Protože na úrovni úložiště a sítě Hadoop chybí šifrování, což je hlavní problém.
Od přírody zranitelný – Framework je napsán téměř v nejrozšířenějším jazyce Java. Java je silně zneužívána kyberzločinci. V důsledku toho se podílí na četných porušeních zabezpečení.
Nevhodné pro malá data – Vzhledem k tomu, že není vhodný pro malá data. Proto postrádá schopnost efektivně podporovat náhodné čtení malých souborů.
Potenciální problémy se stabilitou – Protože se jedná o open source framework. To znamená, že je vytvořen mnoha vývojáři, kteří na projektu nadále pracují. I když se neustále vylepšují, má problémy se stabilitou. Aby se těmto problémům předešlo, měly by organizace běžet na nejnovější stabilní verzi.

Závěr

Závěrem lze říci, že se jedná o nejpopulárnější a nejvýkonnější Big data nástroj. Ukládá obrovské množství dat distribuovaným způsobem.

A pak zpracovává data paralelně na shluku uzlů. Poskytuje také nejspolehlivější úložnou vrstvu na světě – HDFS. Modul pro dávkové zpracování MapReduce a vrstva správy zdrojů – YARN.

Proto tito démoni zajišťují funkčnost Hadoop.