Tentotutoriál Hadoop je všechno o Rack Awareness v Hadoopu. V tomto blogu popíšeme vše o Rack Awareness v HDFS .
Nejprve si prostudujeme, co je to vlastnost HDFS Rack Awareness, co je potřeba Rack Awareness v Hadoopu. Poté probereme umístění replik pomocí Rack Awareness v HDFS.
Nakonec také probereme různé výhody Rack Awareness v rámci Hadoop.
Úvod do HDFS Rack Awareness
Povědomí o stojanech v Hadoop je koncept, který vybírá bližší Datanodes na základě informací ze stojanu. Ve výchozím nastavení instalace Hadoop předpokládá, že všechny uzly patří do stejného racku.
Pro zlepšení síťového provozu při čtení/zápisu souborů HDFS ve velkých clusterech Hadoop. NameNode vybírá datové uzly, které jsou na stejném stojanu nebo na nedaleké skále pro čtení/zápis požadavků (klientský uzel). HDFS Namenode dosahuje těchto informací o racku udržováním ID racku každého datového uzlu.
Proč Rack Awareness?
Hlavním účelem povědomí o stojanech je:
- Zlepšete spolehlivost a dostupnost dat.
- Lepší výkon clusteru.
- Zabraňuje ztrátě dat, pokud selže celý stojan.
- Zlepšit šířku pásma sítě.
- Pokud je to možné, ponechejte objemový tok ve stojanu.
Umístění repliky prostřednictvím Rack Awareness v Hadoop
Hlavním účelem umístění replik prostřednictvím povědomí o stojanech je zásada zlepšit spolehlivost dat atd.
Jednoduchou zásadou je umístit repliky do stojanu, aby se zabránilo ztrátě dat, když selže celý stojan. A umožnit použití šířky pásma z více racků při čtení souboru.
Na více rackových clusterech blokujte replikace se řídí níže uvedenými zásadami:
Na jeden uzel byste neměli umístit více než jednu repliku. Také byste neměli umístit více než dvě repliky na stejný stojan. To má problém, že počet racků použitých pro replikaci bloků by měl být vždy menší než celkový počet replik bloků.
Například;
- Když framework Hadoop vytvoří nový blok, umístí první repliku do místního uzlu. A umístěte druhý do jiného stojanu a třetí je na jiném uzlu v místním uzlu.
- Pokud je při opětovné replikaci bloku počet existujících replik jedna, umístěte druhou do jiného stojanu.
- Pokud je počet existujících replik dvě, pokud jsou dvě repliky ve stejném stojanu, umístěte třetí do jiného stojanu.
Výhody Rack Awareness v Hadoopu
Pojďme si nyní probrat některé výhody Rack Awareness v Hadoop HDFS-
- Poskytujte vyšší šířku pásma a nízkou latenci – Tato zásada maximalizuje šířku pásma sítě přenosem bloku v rámci stojanu spíše než mezi stojany. YARN je schopen optimalizovat výkon úlohy MapReduce přidělováním úkolů uzlům, které jsou blíže jejich datům z hlediska topologie sítě.
- Poskytuje ochranu dat proti selhání stojanu – Namenode přiřazuje repliky bloku 2 a 3 blok k uzlům v jiném stojanu než první replika. Poskytuje tak ochranu dat i proti selhání racku. To je však možné pouze v případě, že byl Hadoop nakonfigurován se znalostí jeho konfigurace racku.
- Minimalizujte náklady na zápis a maximalizujte rychlost čtení – Povědomí o stojanu, politika umísťuje požadavky na čtení/zápis do replik, které jsou ve stejném stojanu. To minimalizuje náklady na zápis a maximalizuje rychlost čtení.
Závěr
Závěrem lze říci, že je to koncept, který si vybírá bližší Datanodes na základě informací ze stojanu pro zlepšení spolehlivosti dat. Hlavním účelem Rack-Awareness je zabránit ztrátě dat, pokud selže celý rack. Zlepšuje také šířku pásma sítě. Podrobnější informace o vlastnostech HDFS.
Pokud máte nějaké dotazy týkající se Rack Awareness v Hadoopu, podělte se s námi v sekci komentářů. Budeme se snažit vám pomoci.