sql >> Databáze >  >> NoSQL >> HBase

20 Pozoruhodný rozdíl mezi Hadoopem 2.x a Hadoopem 3.x

Cíl tohoto výukového programu Hadoop je poskytnout vám jasnější porozumění mezi různými verzemi Hadoop. V tomto blogu jsme probrali top, 20 rozdílů mezi Hadoopem 2.x a Hadoopem 3.x.

Tento blog se zabývá rozdílem mezi Hadoopem 2 a Hadoopem 3 na základě různých funkcí.

Rozdíl mezi Hadoop 2.x a Hadoop 3.x

Apache Hadoop je open source softwarový rámec pro distribuované ukládání a zpracování velkého množství datových sad.

Hadoop 3.x byl představen, aby překonal omezení Hadoop 2.x. Hadoop 3.x přidal některé nové funkce, ačkoli staré funkce se stále používají.

Podrobné srovnání funkcí mezi Hadoop 2.x a Hadoop 3.x je uvedeno níže:

a. Licence

  • Hadoop 2 .x- Apache 2.0, open source
  • Hadoop 3 .x- Apache 2.0, open source

b. Minimální podporovaná verze Java

  • Hadoop 2 .x- Java 7.
  • Hadoop 3 .x- Java 8.

c. Odolnost proti chybám

  • Hadoop 2.x- V této verzi replikace zpracovává odolnost proti chybám.
  • Hadoop 3.x- V této verzi kódování výmazu zpracovává odolnost proti chybám.

d. Vyrovnávání dat

  • Hadoop 2.x- Používá HDFS Balancer pro vyvažování dat
  • Hadoop 3.x- Používá nástroj pro vyrovnávání uzlů uvnitř dat, který se spouští prostřednictvím rozhraní CLI nástroje pro vyrovnávání disku HDFS.

e. Schéma úložiště

  • Hadoop 2.x- Používá schéma replikace 3X.
  • Hadoop 3.x- Používá kódování Erasure.

f. Režie úložiště

  • Hadoop 2.x- V této verzi má HDFS 200% režii v úložném prostoru.
  • Hadoop 3.x- V této verzi má HDFS 50% režii v úložném prostoru.

g. Příklad režie úložiště

  • Hadoop 2.x- Pokud je tam 6 bloků a 3x replikace každého bloku, tak to má za následek 18 bloků. Zabere 18 bloků prostoru.
  • Hadoop 3.x- Pokud je 6 bloků, zabere to 9 bloků, tj. 6 bloků a 3 pro paritu.

h. Služba časové osy YARN

  • Hadoop 2.x- Používá starou službu časové osy, která má problémy se škálovatelností.
  • Hadoop 3.x- Tato verze vylepšuje službu časové osy v2. Zlepšuje také škálovatelnost a spolehlivost služby časové osy.

j. Výchozí rozsah portů

  • Hadoop 2.x- V této verzi jsou výchozí porty Linux efemérní rozsah portů. V době spuštění se tedy nepodaří navázat.
  • Hadoop 3.x- Zatímco tato verze je přesunuta mimo pomíjivý rozsah.

k. Nástroje

  • Hadoop 2.x- K dispozici jsou také nástroje Hive, pig, Tez, Hama a další nástroje Hadoop.
  • Hadoop 3.x- V této verzi jsou k dispozici také nástroje Hive, pig, Tez, Hama a další nástroje Hadoop.

l. Kompatibilní systém souborů

  • Hadoop 2.x- Podporuje HDFS (výchozí FS), systém souborů FTP:Tento systém také ukládá všechna svá data na vzdáleně přístupné servery FTP. Podporuje také souborový systém Amazon S3 (Simple Storage Service) systém souborů Windows Azure Storage Blobs (WASB).
  • Hadoop 3.x- Podporuje všechny předchozí a také souborový systém Microsoft Azure Data Lake.

m. Zdroje Datanode

  • Hadoop 2.x- Pro MapReduce zdroj Datanode není vyhrazen. Můžeme jej použít i pro jiné aplikace.
  • Hadoop 3.x- V této verzi lze také zdroj datového uzlu použít pro jiné aplikace.

n. Kompatibilita MR API

  • Hadoop 2.x- MR API kompatibilní s programem Hadoop 1.x pro spuštění na Hadoop 2.X
  • Hadoop 3.x- MR API je také kompatibilní se spouštěním programů Hadoop 1.x pro spuštění na Hadoop 3.X

o. Podpora pro Microsoft

  • Hadoop 2.x- Lze jej nasadit na Windows.
  • Hadoop 3.x- Podporuje také pro Microsoft Windows.

str. Sloty/kontejner

  • Hadoop 2.x- Hadoop 1.x pracuje na konceptu slotů, zatímco Hadoop 2.X pracuje na konceptu kontejneru.
  • Hadoop 3.x- Hadoop 3.x také funguje na konceptu kontejneru.

q. Jediný bod selhání

  • Hadoop 2.x- Má vlastnosti k překonání SPOF. Takže kdykoli NameNode selže, automaticky se obnoví.
  • Hadoop 3.x- Má také funkce pro překonání SPOF. Kdykoli tedy NameNode selže, automaticky se obnoví bez nutnosti ručního zásahu.

r. federace HDFS

  • Hadoop 2.x- V Hadoop 1.x pouze jeden NameNode pro správu všech jmenných prostorů. Ale Hadoop 2.x má více NameNode pro více jmenných prostorů.
  • Hadoop 3.x-  Má také více jmenných uzlů pro více jmenných prostorů.

s. Škálovatelnost

  • Hadoop 2.x- Můžeme škálovat až 10 000 uzlů na cluster.
  • Hadoop 3.x- Můžeme škálovat více než 10 000 uzlů na cluster.

t. Snímek HDFS

  • Hadoop 2.x- Přidává podporu pro snímek. Poskytuje také zotavení po havárii a ochranu proti chybám uživatele.
  • Hadoop 3.x- Podporuje také funkci snapshot.

u. Platforma

  • Hadoop 2.x- Slouží jako platforma pro širokou škálu analýz dat. Je také možné spouštět zpracování událostí, streamování a operace v reálném čase.
  • Hadoop 3.x- Na horní části YARN je také možné spouštět zpracování událostí, streamování a operace v reálném čase.

Závěr

Závěrem lze říci, že Hadoop 3.0 přidal nové funkce, jako je kódování pro vymazání, aby se zvládla odolnost proti chybám. Hadoop 3.x také snižuje režii úložiště o 200 % až 50 %.

Představila také nový nástroj příkazového řádku s názvem Disk Balancer. Hadoop 3.x tedy zlepšil celkový výkon.

Pokud najdete nějaký jiný rozdíl mezi Hadoopem 2.x a Hadoopem 3.x, dejte nám vědět v sekci komentářů.


  1. Nelze načíst soubor nebo sestavení System.Runtime.CompilerServices.Unsafe

  2. spring-data-mongo - volitelné parametry dotazu?

  3. mongoose rozdíl findOneAndUpdate a update

  4. Proč PyMongo 3 dává ServerSelectionTimeoutError?