sql >> Databáze >  >> NoSQL >> HBase

Pochopení funkce vysoké dostupnosti Hadoop

Tento blog vám poskytuje popis Hadoop Funkce HDFS High Availability. V tomto blogu nejprve probereme, co přesně je vysoká dostupnost, jak Hadoop dosahuje vysoké dostupnosti, jaká je potřeba funkce vysoké dostupnosti HDFS.

V tomto výukovém programu Hadoop s velkými daty se také budeme zabývat příkladem funkce vysoké dostupnosti Hadoop.

Co je Hadoop HDFS High Availability?

Hadoop HDFS je distribuovaný souborový systém. HDFS distribuuje data mezi uzly v clusteru Hadoop vytvořením repliky souboru. Rámec Hadoop ukládá tyto repliky souborů na ostatních počítačích přítomných v clusteru.

Když tedy chce klient HDFS přistupovat ke svým datům, může k těmto datům snadno přistupovat z řady strojů přítomných v clusteru. Data jsou snadno dostupná v nejbližším uzlu v clusteru.

Za některých nepříznivých podmínek, jako je selhání uzlu, může klient snadno přistupovat ke svým datům z ostatních uzlů. Tato funkce Hadoop se nazýváHigh Availability .

Jak je v Hadoopu dosaženo vysoké dostupnosti?

V clusteru HDFS existuje řada Datových uzlů . Po uplynutí určitého časového intervalu odesílají všechny tyto datové uzly zprávy srdečního tepu do NameNode . Pokud NameNode přestane přijímat zprávy s prezenčním signálem z kteréhokoli z těchto DataNode, pak předpokládá, že je mrtvý.

Poté zkontroluje data přítomná v těchto uzlech a poté vydá příkazy druhému datovému uzlu, aby vytvořil repliku těchto dat do jiných datových uzlů. Data jsou proto vždy k dispozici.

Když klient požádá o přístup k datům v HDFS, NameNode nejprve vyhledá data v těchto datových uzlech, ve kterých jsou data rychle dostupná. A poté poskytuje přístup k těmto datům klientovi.

Klienti nemusí hledat data ve všech datových uzlech. Samotný HDFS Namenode usnadňuje dostupnost dat pro klienty tím, že poskytuje adresu datového uzlu, odkud může uživatel přímo číst.

Příklad vysoké dostupnosti Hadoop

Hadoop HDFS poskytuje vysokou dostupnost dat. Když klient požádá NameNode o přístup k datům, pak NameNode vyhledá všechny uzly, ve kterých jsou tato data dostupná.

Poté poskytuje přístup k těmto datům uživateli z uzlu, ve kterém byla data rychle dostupná. Pokud NameNode při hledání dat na všech uzlech v clusteru zjistí, že některý uzel je mrtvý, pak bez vědomí uživatele NameNode přesměruje uživatele do druhého uzlu, ve kterém jsou k dispozici stejná data.

Bez jakéhokoli přerušení jsou data zpřístupněna uživateli. Takže v podmínkách selhání uzlu jsou také data uživatelům vysoce dostupná.

Jaké byly problémy ve starších systémech?

  • Data byla nedostupná z důvodu selhání počítače.
  • Klient HDFS musí na přístup ke svým datům čekat dlouhou dobu. Většinu času musí uživatelé čekat určitou dobu, než se webová stránka objeví.
  • Omezené funkce a vlastnosti.
  • Kvůli nedostupnosti dat se dokončení mnoha velkých projektů v organizacích prodlužuje na dlouhou dobu, a proto musí společnosti procházet kritickými situacemi.

Závěr

Data In Hadoop jsou tedy vysoce dostupná a přístupná navzdory selhání hardwaru v důsledku více kopií dat. Pokud tedy některý uzel nebo stroje havarují nebo selžou, k datům můžeme přistupovat k datům z jiné cesty. Další informace o funkcích HDFS.

Pokud považujete tento blog za užitečný ohledně Hadoop High Availability, podělte se prosím o své myšlenky v sekci komentářů.


  1. Existuje alternativa Javy k Redis, kterou lze vložit?

  2. Sdružování databázových připojení ovladače MongoDB Java Driver s Tomcat

  3. Správa dlouhotrvajících operací v MongoDB

  4. Podporuje Spring Data Redis (1.3.2.RELEASE) JedisSentinelPool of jedis?