sql >> Databáze >  >> NoSQL >> HBase

Hadoop Combiner Úvod, funkce a výhody

V tomto tutoriálu Hadoop , poskytneme vám podrobný popis Hadoop Combineru. Nejprve uvidíme, co je MapReduce Combiner, jaká je klíčová role Combineru v MapReduce.

Poté probereme příklad programu MapReduce s a bez slučovače v Hadoopu. Nakonec také uvidíme některé výhody a nevýhody Combineru v MapReduce.

 Co je Hadoop Combiner?

Slučovač je také známý jako „Mini-reduktor “, která shrnuje Mapper výstupní záznam se stejným klíčem před předáním do Reduceru .

Na velké datové sadě, když spustíme úlohu MapReduce. Mapper tedy generuje velké kusy mezilehlých dat. Poté framework předá tato mezilehlá data do Reduceru k dalšímu zpracování.

To vede k obrovskému přetížení sítě. Rámec Hadoop poskytuje funkci známou jako Combiner  který hraje klíčovou roli při snižování přetížení sítě.

Primárním úkolem Combineru a „Mini-Reduceru“ je zpracovat výstupní data z Mapperu před jejich předáním Reduceru. Běží za mapovačem a před Reducerem. Jeho použití je volitelné.

Jak Combiner funguje v Hadoopu?

Nyní se podívejme, jak se věci změní, když použijeme slučovač v MapReduce?

Jak vidíme na obrázku výše, žádný slučovač tam není. Vstup je rozdělen do dvou mapovačů. Rámec generuje 9 klíčů z mapovačů.

Nyní tedy máme (9 klíč/hodnota) mezilehlá data. Další mapovač odešle tento pár klíč–hodnota přímo do reduktoru. Při odesílání dat do redukce spotřebovává určitou šířku pásma sítě. Pokud je velikost dat velká, trvá přenos dat do redukce déle.

Nyní z výše uvedeného diagramu, pokud použijeme slučovač mezi mapovačem a reduktorem. Poté slučovač zamíchá 9 klíč/hodnota před odesláním do reduktoru. A pak vygeneruje 4 páry klíč/hodnota jako výstup.

Nyní Reducer potřebuje zpracovat pouze 4 data párů klíč/hodnota, která jsou generována ze 2 slučovačů. Proto se reduktor spustí pouze 4krát, aby vytvořil konečný výstup. To zvyšuje celkový výkon.

Výhody Combineru v MapReduce

Pojďme nyní diskutovat o výhodách Hadoop Combiner v MapReduce.

  • Použití slučovače zkracuje dobu přenosu dat mezi mapovačem a reduktorem.
  • Combiner zlepšuje celkový výkon reduktoru.
  • Snižuje množství dat, které musí reduktor zpracovat.

Nevýhody Combineru v MapReduce

Hadoop Combiner má také některé nevýhody. Pojďme nyní diskutovat o tom samém.

  • Když v místním souborovém systému Hadoop uloží páry klíč-hodnota a spustí kombinátor později, způsobí to drahé IO ​​disku.
  • Úlohy MapReduce nemohou záviset na provedení slučovače, protože jeho provedení není zaručeno.

Závěr

Hadoop Combiner proto hraje klíčovou roli při snižování přetížení sítě. Zlepšuje celkový výkon reduktoru shrnutím výstupu Mapperu.

Doufám, že nyní rozumíte Hadoop Combineru jasně. Pokud máte stále nějaký dotaz, dejte nám prosím vědět a zanechte komentář v sekci níže.


  1. Jaký je správný způsob, jak zvládnout připojení Redis v Tornado? (Asynchronní – Pub/Sub)

  2. MongoDB:Server má varování při spuštění

  3. Redis vs Service Bus pro scénář pub/sub

  4. Dotazování MongoDB/Mongoose k určitému datu?