sql >> Databáze >  >> NoSQL >> HBase

Co je to MapReduce Key Value Pair v Hadoop?

V tomto Hadoop tutorial , Budeme vám poskytnout kompletní úvod do MapReduce Key Value Pair.

V první řadě budeme diskutovat, co je dvojice klíč hodnota v Hadoop, jak dvojice klíč hodnota je generována v MapReduce. Konečně budeme vysvětlovat generaci hodnota pár MapReduce klíčovou s příklady.

Co je Key Value Pair v Hadoop?

Pár klíč-hodnota v MapReduce je záznam subjekt, který Hadoop MapReduce přijme k provedení.

Používáme Hadoop především pro analýzu dat. Zabývá se strukturovaných a nestrukturovaných a částečně strukturovaných dat. S Hadoop, v případě, že schéma je statický můžeme přímo pracovat na sloupec namísto hodnoty klíče. Ale v případě, že schéma není statická budeme pracovat na klíčovou hodnotu.

Klíče hodnota není vnitřní vlastnosti dat. Ale jsou zvoleny uživatelem analýze dat.

MapReduce je hlavní složkou Hadoop, který zajišťuje zpracování dat. Provádí zpracování tím, že rozbije práci tím, že do dvou fází: Mapa fáze a Zmenšení fáze . Každá fáze má hodnotu klíče jako vstupu a výstupu.

MapReduce Key generace hodnota pár v Hadoop

V MapReduce spuštění úlohy, před odesláním dat na mapper , Nejprve převést do dvojic klíč-hodnota. Vzhledem k tomu, mapovač pouze klíč-hodnota dvojice údajů.

pár klíč-hodnota v MapReduce je generována následovně:

InputSplit - Je logické znázornění dat, které InputFormat generuje. V programu MapReduce popisuje jednotku práce, která obsahuje jedinou mapu úkol.

RecordReader - Komunikuje s InputSplit. Poté se převede data z klíče a hodnoty, vhodné pro čtení, které Mapper. RecordReader standardně použití TextInputFormat převést data do dvojic klíče a hodnoty.

V MapReduce spuštění úlohy, funkce mapa zpracovává určitý páru klíč-hodnota. Pak vysílá určitý počet dvojic klíč-hodnota. Reduce funkce zpracovává hodnoty seskupené podle stejného klíče.

Pak vyšle další sadu párů klíč-hodnota, jako výstupu. Typy Mapa výstupu by se měla shodovat typy vstup Redukce jak je uvedeno níže:

  • na Mapa (K1, V1) -> Seznam (K2, V2)
  • Snížit: , {(K2, seznam (V2}) -> seznam (K3, V3)

Na jakém základě je pár klíč-hodnota vytvořená v Hadoop?

MapReduce klíč-hodnota generátor páru zcela závisí na datové sadě. Také závisí na požadovaném výkonu. Rámec uváděl pár klíč-hodnota ve 4 místech:. Map vstup / výstup, snížit vstup / výstup

1. Map Input

Map Input standardně trvá linii odsazení jako klíč. Obsah řádku je hodnota jako text. Můžeme je upravit; pomocí vlastní formát vstupního signálu.

2. Mapa Výstup

Mapa je odpovědný k filtrování dat. Poskytuje také prostředí pro skupinu dat na základě tlačítka.

  • Key - Je to pole / text / objekt, na kterém skupiny dat a agregáty na tlačítko Redukce .
  • Hodnota - Jedná se o pole / text / objekt, který každý jednotlivec snižuje metoda rukojeti.

3. Snížit vstup

Mapa výstup je vstup snížit. Takže je to stejné, jako mapy a výstupů.

4. Snížení výkonu

To zcela závisí na požadovaný výkon.

MapReduce pár klíč-hodnota Příklad

Například obsah souboru, které HDFS obchody jsou Chandler je Joey Mark John . Tak, teď pomocí InputFormat, budeme definovat, jak bude tento soubor rozdělit a číst. Ve výchozím nastavení používá RecordReader TextInputFormat převést tento soubor do páru klíč-hodnota.

  • Key - To je posun začátku řádku v souboru.
  • Hodnota - To je obsah řádku, s výjimkou linky terminátory.

Tady, Key je 0 a Hodnota Je Chandler je Joey Mark je John.

Závěr

Na závěr můžeme říci, že klíč-hodnota je jen záznam subjekt, který MapReduce přijme k provedení. InputSplit a RecordReader generovat klíč-hodnota pár. Z tohoto důvodu, je klíč posun bajtů a hodnota je obsah řádku.

Doufám, že se vám líbil tento blog. Máte-li nějaký návrh nebo dotaz týkající se MapReduce dvojice hodnotu klíče tak prosím zanechat komentář v sekci níže.


  1. Je možné vytvořit více cache obchodů pomocí Spring's abstrakce mezipaměti s redis?

  2. Jarní stránka dat mongo

  3. Jak mohu slíbit nativní ovladač Javascript MongoDB pomocí bluebird?

  4. Předání dalších sklenic Sparku prostřednictvím spark-submit