Relační databáze po dlouhou dobu stačily ke zpracování malých nebo středních datových sad. Ale kolosální rychlost, kterou data rostou, činí tradiční přístup k ukládání a získávání dat neproveditelným. Tento problém řeší novější technologie, které zvládnou Big Data. Hadoop, Hive a Hbase jsou oblíbené platformy pro provozování tohoto druhu velkých souborů dat. Databáze NoSQL nebo nejen SQL, jako je MongoDB®, poskytují mechanismus pro ukládání a načítání dat v modelu ztracené konzistence s výhodami, jako jsou:
- Horizontální měřítko
- Vyšší dostupnost
- Rychlejší přístup
Inženýrský tým MongoDB® nedávno aktualizoval MongoDB® Connector pro Hadoop, aby měl lepší integraci. To uživatelům Hadoopu usnadňuje:
- Integrujte data v reálném čase z MongoDB® s Hadoop pro hlubokou offline analýzu.
- Konektor odhaluje analytickou sílu MapReduce od Hadoop živým datům aplikací z MongoDB®, čímž rychleji a efektivněji získává hodnotu z velkých dat.
- Konektor představuje MongoDB jako souborový systém kompatibilní s Hadoop, který umožňuje úloze MapReduce číst z MongoDB® přímo bez předchozího kopírování do HDFS (systém souborů Hadoop), čímž odpadá nutnost přesunout terabajty dat po síti.
- Úlohy MapReduce mohou předávat dotazy jako filtry, takže není nutné skenovat celé kolekce, a mohou také využívat bohaté možnosti indexování MongoDB® včetně geoprostorových, textových vyhledávací, pole, složené a řídké indexy.
- Čtením z MongoDB® lze výsledky úloh Hadoop také zapsat zpět do MongoDB®, aby se podpořily provozní procesy v reálném čase a ad-hoc dotazování.
Případy použití Hadoop a MongoDB®:
Podívejme se na podrobný popis toho, jak mohou MongoDB® a Hadoop zapadnout do typického zásobníku velkých dat. Primárně máme:
- MongoDB® používaný jako „Provozní“ úložiště dat v reálném čase
- Hadoop pro offline dávkové zpracování a analýzu dat
Čtěte dále a zjistěte, proč MongoDB je databáze pro zpracování velkých dat ajak MongoDB® využívaly společnosti a organizace jako Aadhar, Shutterfly, Metlife a eBay.
Aplikace MongoDB® s Hadoopem v dávkové agregaci:
Ve většině scénářů je pro analýzu dat dostatečná vestavěná agregační funkce poskytovaná MongoDB®. V určitých případech však může být nezbytná podstatně složitější agregace dat. Zde může Hadoop poskytnout výkonný rámec pro komplexní analýzy.
V tomto scénáři:
- Data jsou získávána z MongoDB® a zpracovávána v rámci Hadoop prostřednictvím jedné nebo více úloh MapReduce. Data mohou být také získávána z jiných míst v rámci těchto úloh MapReduce za účelem vývoje řešení s více zdroji dat.
- Výstup z těchto úloh MapReduce lze poté zapsat zpět do MongoDB® pro pozdější dotazování a pro jakoukoli analýzu na ad-hoc bázi.
- Aplikace postavené na MongoDB® proto mohou využívat informace z dávkové analýzy k prezentaci koncovému klientovi nebo k aktivaci dalších funkcí.
Aplikace v datovém skladu:
V typickém produkčním nastavení mohou být data aplikace umístěna na více úložištích dat, z nichž každé má svůj vlastní dotazovací jazyk a funkce. Ke snížení složitosti v těchto scénářích lze Hadoop použít jako datový sklad a fungovat jako centralizované úložiště pro data z různých zdrojů.
V tomto druhu scénáře:
- Pravidelné úlohy MapReduce načítají data z MongoDB® do Hadoop.
- Jakmile budou data z MongoDB® a dalších zdrojů dostupná v Hadoopu, lze dotazovat na větší datovou sadu.
- Datoví analytici mají nyní možnost používat MapReduce nebo Pig k vytváření úloh, které se dotazují na větší datové sady, které obsahují data z MongoDB®.
Tým pracující za MongoDB® zajistil, že díky své bohaté integraci s technologiemi Big Data, jako je Hadoop, se dokáže dobře integrovat do Big Data Stack a pomůže vyřešit některé složité architektonické problémy. pokud jde o ukládání, vyhledávání, zpracování, agregaci a skladování dat. Zůstaňte naladěni na náš nadcházející příspěvek o kariérních vyhlídkách pro ty, kteří začínají s Hadoopem s MongoDB®. Pokud již s Hadoopem pracujete nebo si MongoDB® teprve vyzvedáváte, podívejte se na kurzy, které pro MongoDB® nabízíme zde
Prozkoumejte více o konceptech Hadoop. Podívejte se na tento Online kurz velkých dat , který byl vytvořen Top Industrial working Experts.