sql >> Databáze >  >> NoSQL >> MongoDB

MongoDB® s Hadoopem a souvisejícími technologiemi Big Data

Relační databáze po dlouhou dobu stačily ke zpracování malých nebo středních datových sad. Ale kolosální rychlost, kterou data rostou, činí tradiční přístup k ukládání a získávání dat neproveditelným. Tento problém řeší novější technologie, které zvládnou Big Data. Hadoop, Hive a Hbase jsou oblíbené platformy pro provozování tohoto druhu velkých souborů dat. Databáze NoSQL nebo nejen SQL, jako je MongoDB®, poskytují mechanismus pro ukládání a načítání dat v modelu ztracené konzistence s výhodami, jako jsou:

  • Horizontální měřítko
  • Vyšší dostupnost
  • Rychlejší přístup

Inženýrský tým MongoDB® nedávno aktualizoval MongoDB® Connector pro Hadoop, aby měl lepší integraci. To uživatelům Hadoopu usnadňuje:

  • Integrujte data v reálném čase z MongoDB® s Hadoop pro hlubokou offline analýzu.
  • Konektor odhaluje analytickou sílu MapReduce od Hadoop živým datům aplikací z MongoDB®, čímž rychleji a efektivněji získává hodnotu z velkých dat.
  • Konektor představuje MongoDB jako souborový systém kompatibilní s Hadoop, který umožňuje úloze MapReduce číst z MongoDB® přímo bez předchozího kopírování do HDFS (systém souborů Hadoop), čímž odpadá nutnost přesunout terabajty dat po síti.
  • Úlohy MapReduce mohou předávat dotazy jako filtry, takže není nutné skenovat celé kolekce, a mohou také využívat bohaté možnosti indexování MongoDB® včetně geoprostorových, textových vyhledávací, pole, složené a řídké indexy.
  • Čtením z MongoDB® lze výsledky úloh Hadoop také zapsat zpět do MongoDB®, aby se podpořily provozní procesy v reálném čase a ad-hoc dotazování.

Případy použití Hadoop a MongoDB®:

Podívejme se na podrobný popis toho, jak mohou MongoDB® a Hadoop zapadnout do typického zásobníku velkých dat. Primárně máme:

  • MongoDB® používaný jako „Provozní“ úložiště dat v reálném čase
  • Hadoop pro offline dávkové zpracování a analýzu dat

Čtěte dále a zjistěte, proč MongoDB je databáze pro zpracování velkých dat ajak MongoDB® využívaly společnosti a organizace jako Aadhar, Shutterfly, Metlife a eBay.

Aplikace MongoDB® s Hadoopem v dávkové agregaci:

Ve většině scénářů je pro analýzu dat dostatečná vestavěná agregační funkce poskytovaná MongoDB®. V určitých případech však může být nezbytná podstatně složitější agregace dat. Zde může Hadoop poskytnout výkonný rámec pro komplexní analýzy.

V tomto scénáři:

  • Data jsou získávána z MongoDB® a zpracovávána v rámci Hadoop prostřednictvím jedné nebo více úloh MapReduce. Data mohou být také získávána z jiných míst v rámci těchto úloh MapReduce za účelem vývoje řešení s více zdroji dat.
  • Výstup z těchto úloh MapReduce lze poté zapsat zpět do MongoDB® pro pozdější dotazování a pro jakoukoli analýzu na ad-hoc bázi.
  • Aplikace postavené na MongoDB® proto mohou využívat informace z dávkové analýzy k prezentaci koncovému klientovi nebo k aktivaci dalších funkcí.

Aplikace v datovém skladu:

V typickém produkčním nastavení mohou být data aplikace umístěna na více úložištích dat, z nichž každé má svůj vlastní dotazovací jazyk a funkce. Ke snížení složitosti v těchto scénářích lze Hadoop použít jako datový sklad a fungovat jako centralizované úložiště pro data z různých zdrojů.

V tomto druhu scénáře:

  • Pravidelné úlohy MapReduce načítají data z MongoDB® do Hadoop.
  • Jakmile budou data z MongoDB® a dalších zdrojů dostupná v Hadoopu, lze dotazovat na větší datovou sadu.
  • Datoví analytici mají nyní možnost používat MapReduce nebo Pig k vytváření úloh, které se dotazují na větší datové sady, které obsahují data z MongoDB®.

Tým pracující za MongoDB® zajistil, že díky své bohaté integraci s technologiemi Big Data, jako je Hadoop, se dokáže dobře integrovat do Big Data Stack a pomůže vyřešit některé složité architektonické problémy. pokud jde o ukládání, vyhledávání, zpracování, agregaci a skladování dat. Zůstaňte naladěni na náš nadcházející příspěvek o kariérních vyhlídkách pro ty, kteří začínají s Hadoopem s MongoDB®. Pokud již s Hadoopem pracujete nebo si MongoDB® teprve vyzvedáváte, podívejte se na kurzy, které pro MongoDB® nabízíme zde

Prozkoumejte více o konceptech Hadoop. Podívejte se na tento Online kurz velkých dat , který byl vytvořen Top Industrial working Experts.


  1. Jak používat jarní data mongo @CompoundIndex s dílčími kolekcemi?

  2. Oblast oznámení a zpráv pomocí Redis

  3. Vysvětlení limitu velikosti dokumentu MongoDB BSON

  4. Operátor agregačního potrubí MongoDB $eq