Proč se učit Cassandru s Hadoopem?

„Společnosti si uvědomují, že mohou těžit cenné obchodní informace ke zlepšení rozhodování a získání konkurenční výhody. Nástroje jako Hadoop a Cassandra toto vše umožňují a díky tomu jsou dovednosti NoSQL na všech úrovních extrémně žádané.“ – Analytici na TechRepublic

Vyvinuto jako vlastní projekt na Facebooku, aby posílil funkci vyhledávání v doručené poště Cassandra je Open Source Distributed Database Management System . Byl vydán jako projekt s otevřeným zdrojovým kódem na Google Code v roce 2008 a následně se stal projektem nejvyšší úrovně na Apache Software Foundation od roku 2010.

Cassandra je další VELKÁ věc:

Apache Cassandra je navržen tak, aby zpracovával obrovské množství dat (z hlediska rychlosti, objemu a rozmanitosti) na mnoha komoditních serverech, které zajišťují vysokou dostupnost a neposkytují žádné SPOF (jediný bod selhání).
Cassandra také nabízí silnou podporu pro clustery zahrnující více datových center. Absence struktury „Master-slave“, jako u tradičních architektur, umožňuje nulový dopad na systém, pokud dojde k výpadku konkrétního uzlu.
Vědci z University of Toronto provádějící studii na systémech NoSQL uvádějí, že z hlediska škálovatelnosti a maximální propustnosti na uzel Cassandra se ukazuje jako jasný vítěz. Hlavním cílem NoSQL DBMS je zajistit škálovatelnost , Výkon a Vysoká dostupnost. Stejně jako většina NoSQL DBMS dokáže Cassandra pracovat se strukturovanými i nestrukturovanými daty a ve výše uvedených parametrech si vede velmi dobře.
Cassandra může sloužit jako úložiště dat v reálném čase („Systém záznamů“) pro online/transakční aplikace a jako databázi s intenzivním čtením pro systémy Business Intelligence. Přečtěte si náš blogový příspěvek o různých výhodách, které Cassandra nabízí, kde najdete další informace.

Proč jít na Hadoop s Cassandrou?

Jednoduše řečeno, mít:

Jednotná pracovní zátěž
Dostupnost
Jednodušší nasazení

Pokud jde o Hadoop, podniky se nezajímají o základní strukturu úložiště Hadoop, ale o jeho nákladově efektivní způsoby dodávání pro analýzu a zpracování obrovského množství dat. Schopnost rozhodovat na základě výstupů MapReduce, Hive, Pig, Mahout a dalších operací je pro tyto organizace nejdůležitější.

Klíčové body k zapamatování:

Hadoop Distributed File System (HDFS) je jednou z mnoha různých součástí a projektů obsažených v ekosystému Hadoop. Projekt Apache Hadoop definuje HDFS jako primární úložný systém používaný aplikacemi Hadoop .HDFS může ukládat masivní distribuované nestrukturované datové sady. Data mohou být uložena přímo v HDFS nebo mohou být uložena v semistrukturovaném formátu v HBase, který umožňuje rychlý přístup k datům na úrovni záznamů a je modelován podle systému Google BigTable. Cassandra na druhé straně není relační systém, který využívá datový model BigTable , ale pro distribuci dat a shlukování využívá schéma Dynamo společnosti Amazon.
Hadoop dělá mnoho skvělých věcí, jeho základní schopnosti MapReduce jsou velmi silné. Odborníci z oboru zbožňují Hive a jeho design podobný SQL. Systém souborů HDFS je však extrémně složitý na nastavení, má jednotlivé body selhání a – podle zpětné vazby od velkých společností prostě není připraven dělat to, co chtějí . Cassandra na druhou stranu poskytuje všechny možnosti nižší úrovně Hadoop stacku. Cassandra zároveň také poskytuje možnosti aplikací v reálném čase s nízkou latencí právě v této infrastruktuře.

Jak mohou Cassandra a Hadoop spolupracovat?

Řada dodavatelů nabízí alternativy k HDFS. Nedávný dokument organizace s názvem GigaOM poskytuje přehled na vysoké úrovni, jak lze systém souborů Apache Cassandra použít k nahrazení HDFS minimální změny v programování potřebné z hlediska vývoje a jak lze v tomto procesu využít řadu výhod. DataStax , přední komerční poskytovatel distribuce Cassandry, spojil Cassandru s Hadoop a pojmenoval ji Brisk. S Brisk je HDFS nahrazen Cassandra File System. Prozkoumejte více o konceptech HDFS. Podívejte se na tento Online kurz velkých dat , který byl vytvořen Top Industrial working Experts.

Výhoda Cassandra – kombinace Hadoop:

Na stejném clusteru lze také implementovat Cassandru s Hadoopem. To znamená, že můžete mít to nejlepší z obou světů.
Tzaložené na čase a v reálném čase běží pod aplikacemi Cassandra (v reálném čase je síla Cassandry) a zároveň analýza založená na dávkách a dotazy které nevyžadují časové razítko, lze spustit na Hadoop. V tomto druhu ekosystému je HDFS nahrazen Cassandrou a to je pro vývojáře neviditelné. Je možné dynamicky měnit přiřazení uzlů mezi prostředími Cassandra a Hadoop, jak je vhodné.
Systém souborů Cassandra odstraňuje jednotlivé body selhání které jsou spojeny s HDFS, jmenovitě body selhání NameNode a Job Tracker, které jsou spojeny s HDFS.

Myšlenkou je proto spojit Cassandru, která je průkopníkem ve zpracování velkých objemů transakcí v reálném čase , s Hadoop který vyniká v dávkově orientovaných analytických řešeních .

Cassandra a Biggies:

Mnoho organizací napříč průmyslovými vertikálami využívá Cassandru k dosažení různých obchodních cílů. Některé prominentní jsou:

Netflix – Používá Cassandru jako svou back-endovou databázi pro své streamovací služby.
WebEx společnosti Cisco – Používá Cassandra k ukládání uživatelského kanálu a aktivity téměř v reálném čase.
SoundCloud – Používá Cassandra k ukládání řídicího panelu svých uživatelů.
IBM – Provedl výzkum při budování škálovatelného e-mailového systému založeného na Cassandře

Názvy pracovních pozic zahrnující dovednosti Hadoop a Cassandra:

Studie společnosti Simplyhired ukazuje, že pracovní místa Cassandra jsou velmi žádaná kvůli jejich vysoké míře přijetí v tomto odvětví, zejména v posledních několika letech. A budoucnost vypadá velmi slibně.

Podívejme se na některé pracovní pozice zahrnující dovednosti Hadoop-Cassandra a jejich platy uvedené na Indeed.com:

Datový architekt: Tato pozice má čistý průměrný plat 107 000 $. Datoví architekti musí mít určité zkušenosti s vytvářením datových modelů, ukládáním dat, analýzou dat a migrací dat
Data Scientist: Shromažďují data, analyzují je, prezentují data vizuálně a používají data k vytváření předpovědí/předpovědí. Průměrný plat datového vědce je 104 000 $
Systémový inženýr: Průměrný plat systémových inženýrů je 89 000 $.
DBA: DBA vydělávají v průměru přes 100 000 $.
Software Vývojář aplikací: Softwaroví vývojáři vydělávají průměrný plat 107 000 USD a vývojáři aplikací 93 000 USD. Lidé s těmito dovednostmi mohou získat dostatek práce na volné noze nebo mohou spustit vlastní startup, pokud mají podnikatelského ducha.

Související příspěvky:

Výběr správné databáze NoSQL.

Jak otevřít CQLSH Cassandry nainstalované ve Windows?