Databáze Greenplum je databáze SQL s masivním paralelním zpracováním (MPP), která je postavena a založena na PostgreSQL. Dokáže se bez jediného problému škálovat směrem k datové zátěži na úrovni několika petabajtů a umožňuje přístup ke shluku výkonných serverů, které budou spolupracovat v rámci jediného rozhraní SQL, kde si můžete prohlížet všechna data. V tomto příspěvku na blogu vysvětlíme, co je Greenplum, a rozebereme architekturu Greenplum, výhody, hlavní případy použití a jak začít.
Co přesně je Greenplum?
Greenplum Database je open source, hardwarově agnostická MPP databáze pro analýzu, založená na PostgreSQL a vyvinutá společností Pivotal, kterou později koupila společnost VMware. Jeho architektura byla speciálně navržena pro správu rozsáhlých datových skladů a pracovních zátěží business intelligence tím, že vám dává možnost rozložit vaše data na velké množství serverů.
Tato databáze nabitá funkcemi poskytuje výkonnou a rychlou analýzu dat, která se škáluje až na petabajtové objemy.
Na první pohled – TLDR | ||||||
---|---|---|---|---|---|---|
|
Architektura Greenplum
Abychom dobře porozuměli architektuře Greenplum, podívejme se nejprve na to, co je databáze MPP.
Co je databáze MPP?
Při zpracovávání velkého množství komplexních dat nebo velkých dat je pravděpodobné, že váš hlavní stroj začne být drcen všemi daty, která musí zpracovat, aby mohl produkovat vaše analýzy Výsledek. Aby naplnila tuto potřebu rychlejšího zpracování a umožnila rychlejší výsledky, mnoho organizací zvažuje přijetí databáze MPP.
Systém MPP využívá architekturu shared-nothing pro paralelní zpracování více operací. Využívá několik různých procesorových jednotek, které pracují nezávisle pomocí vlastní vyhrazené paměti a zdrojů, takže pracovní zátěž je sdílena mezi více zařízeními, nikoli pouze jedním. Typicky má systém MPP jeden vedoucí uzel a jeden nebo více výpočetních uzlů. Vedoucí uzel, nazývaný „master“ v Greenplum, říká všem ostatním uzlům, nazývaným segmenty v Greenplum, co mají dělat, a spojuje jejich odpovědi, aby vytvořil konečnou odpověď.
Databáze MPP vodorovně měřítko přidáním více výpočetních zdrojů (uzlů) namísto toho, abyste se museli starat o upgrade na stále dražší jednotlivé servery (vertikální škálování).
Greenplum Architectural Design
Na základě architektury PostgreSQL využívá Greenplum v podstatě několik instancí databáze PostgreSQL najednou v jediném clusteru Greenplum. Uživatelé PostgreSQL se mohou rychle seznámit s tímto typem databáze, protože mnoho funkcí, konfigurací a funkcí je v Greenplum stejných a obsahuje funkce navržené pro optimalizaci fungování PostgreSQL pro úlohy a pracovní zátěže business intelligence (BI).
Greenplum také představil mnoho funkcí, které nejsou v PostgreSQL k dispozici, jako je paralelní načítání dat, správa zdrojů, vylepšení úložiště a pokročilá optimalizace dotazů, což z něj činí atraktivní nabídku při porovnávání dva.
Podobně jako PostgreSQL využívá Greenplum jeden hlavní server neboli hostitel, který je vstupním bodem do databáze, přijímá připojení a SQL dotazy. Avšak tam, kde PostgreSQL využívá pohotovostní uzly k geografické distribuci jejich nasazení, Greenplum používá segmentové hostitele, kteří ukládají a zpracovávají data. Segmenty Greenplum jsou nezávislé a každý z nich uchovává část dat, i když zpracovává většinu zpracování dotazů. Můžete využít pouze dva hostitelské segmenty a škálovat je na neomezenou kapacitu. Pokud máte povolené zrcadlení, musíte zvýšit počet hostitelů segmentu v krocích nejméně po dvou.
Jak je to tedy všechno koordinováno? Greenplum interconnect je síťová vrstva architektury a spravuje komunikaci mezi segmenty Greenplum a hlavní hostitelskou síťovou infrastrukturou.
Výhody Greenplum
Zde jsou některé z klíčových výhod Greenplum, které vám mohou pomoci zlepšit výkon vaší databáze:
-
Vysoký výkon
Greenplum má jedinečně navržený datový kanál, který dokáže efektivně streamovat data z disku do CPU, aniž by se spoléhal na to, že se data vejdou do paměti RAM, jak je vysvětleno v jejich Greenplum Next Generation Big Datová platforma:článek 5 hlavních důvodů. To poskytuje nasazení Greenplum obrovské zvýšení výkonu oproti systémům v paměti, které potřebují dostatek paměti k uložení svých dat, nebo systémům, které nejsou založeny na RDBMS, což jsou motory pro zpracování v paměti, které přidělují RAM pro každý souběžný dotaz. Vysoký výkon Greenplum eliminuje problém, který má většina RDBMS při škálování na petabtye úrovně dat, protože jsou schopny škálovat lineárně, aby efektivně zpracovávaly data.
-
Optimalizace dotazů
Greenplum nabízí nákladově orientovaný optimalizátor dotazů pro velké objemy dat. Využitím výkonu, jak jsme popsali výše, Greenplum škáluje interaktivní analýzu a analýzu v dávkovém režimu na petabajtové škálování, aniž by se snížil výkon vašeho dotazu. To umožňuje Greenplum distribuovat zátěž mezi jejich různé segmenty a využívat všechny systémové prostředky paralelně ke zpracování dotazu.
S vylepšením pracovní zátěže OLTP (Online Transakční zpracování) v Greenplum 6 se navíc výkon jednoho dotazu zlepšil o více než 3,5 c oproti Greenplum 5. Díky této aktualizaci Greenplum odstranil mnoho soutěž o zámek, takže využití hlavního procesoru může přesáhnout 90 %, což zlepšuje výkon dotazu zlepšením výkonu hardwaru hlavního uzlu.
-
Otevřený zdroj
Databáze Greenplum je projekt datového skladu s otevřeným zdrojovým kódem založený na open source jádru PostgreSQL, který uživatelům umožňuje využívat desítky let odborného vývoje za PostgreSQL spolu s cíleným přizpůsobením Greenplum pro velké datové aplikace. Greenplum může běžet na jakémkoli linuxovém serveru, ať už je hostovaný v cloudu nebo on-premise, a může běžet v jakémkoli prostředí.
I když je Greenplum spravován základním týmem vývojářů s právy na odevzdání do hlavního úložiště, dychtivě vítají nové přispěvatele, kteří mají s databází zkušenosti, aby pomohli utvářet budoucnost Greenplum. Zjistěte více o zapojení prostřednictvím stránky Greenplum GitHub.
-
Ukládání polymorfních dat
Polymorfní datové úložiště Greenplum vám umožňuje řídit konfiguraci vaší tabulky a úložiště diskových oddílů se svobodou spouštět a komprimovat soubory v něm kdykoli. To vám umožní navrhovat tabulky na základě způsobu, jakým se přistupuje k vašim konkrétním datům, a mít zase řádkovou nebo sloupcovou hierarchii úložiště.
Když vytvoříte tabulku v Greenplum, můžete řídit orientaci pomocí možnosti vybrat data orientovaná na sloupce nebo na řádky. Orientace na sloupce je obvykle lepší pro úplné skenování, zatímco orientace na řádek je lepší pro malá skenování nebo vyhledávání.
Greenplum vám dokonce umožňuje vytvářet datové typy a funkce specifické pro doménu. Díky použití polostrukturovaných datových typů, které zahrnují XML, HStore a JSON, máte možnost ukládat a analyzovat strukturovaná i nestrukturovaná data v rámci databáze.
Co je databáze Greenplum? Úvod do databáze velkých datClick To TweetHlavní případy použití
Greenplum poskytuje výkonnou kombinaci masivně paralelních databází pro zpracování a pokročilé analýzy dat, která mu umožňuje vytvořit rámec pro datové vědce a architekty, aby mohli přijímat obchodní rozhodnutí na základě dat shromážděných umělou inteligencí a strojové učení. Pojďme si projít nejčastější případy použití pro Greenplum:
Analytika
Pokročilé analýzy poskytované společností Greenplum se používají v mnoha odvětvích, včetně financí, výroby, automobilového průmyslu, státní správy, energetiky, vzdělávání, maloobchodu atd., k řešení široké škály problémů. Některé z analytických schopností databáze Greenplum, na které upozornil Pivotal, zahrnují schopnost analyzovat velké množství datových typů, využít stávající znalosti SQL a trénovat více modelů za kratší dobu pomocí architektury MPP.
Greenplum navíc poskytuje analýzu v databázi, která vám umožňuje spouštět analýzy přímo v databázi oproti exportu a spouštění dat v externím analytickém nástroji. Jako databáze šitá na míru podnikové zátěži to poskytuje schopnost potřebnou k prozkoumání velkých datových sad spolu s vysokým výkonem dosaženým paralelním analýzy napříč vašimi dostupnými hostitelskými segmenty. S Greenplum můžete také využít širokou škálu nástrojů pro analýzu napájení, včetně MADlib, statistického jazyka R, SAS a jazyka PMML (Predictive Modeling Markup Language).
Například společnost zabývající se internetovým marketingem v hodnotě miliardy dolarů používá pokročilou analýzu Greenplum k profilování publika, aby zjistila, kdo je jejich publikum, co nakupuje, jaké sítě a zařízení používá, a kde se nacházejí geograficky, aby mohli lépe porozumět svému trhu a sloužit mu.
Strojové učení
Greenplum je vynikající databáze pro strojové učení – studium počítačových algoritmů, které se automaticky zlepšují prostřednictvím zkušeností. Apache MADlib je open source knihovna strojového učení založená na SQL, která běží v databázi na Greenplum, stejně jako PostgreSQL. Tato kombinace vám pomůže zlepšit paralelismus, škálovatelnost a prediktivní přesnost vašeho nasazení strojového učení Greenplum. Transformace dat a funkce inženýrství funkcí jsou také dostupné prostřednictvím MADlib pro strojové učení, včetně popisných a odvozených statistik, pivotování, sessionization a kódování kategorických proměnných.
Například vládní společnost zadržující příjmy z podvodů využívá schopnosti strojového učení Greenplum spolu s GemFire k provádění rozsáhlé detekce podvodů, aby se zabránilo krádežím identity, detekce a zadržení 5 miliard USD ročně a zpracování 8 milionů případů denně.
AI
Umělá inteligence (AI), i když je podobná strojovému učení, odkazuje na širší myšlenku, kdy stroje mohou provádět úkoly chytře. Greenplum je skvělou databázovou volbou pro aplikace, které chtějí napodobovat lidské schopnosti prostřednictvím chytrých strojů. Díky schopnosti Greenplum přijímat velké objemy dat vysokou rychlostí dělá z této databáze výkonný nástroj pro chytré aplikace, které potřebují inteligentně interagovat na základě neomezeného počtu jedinečných scénářů.
Například jedna telekomunikační společnost používá funkce umělé inteligence databáze Greenplum pro své inteligentní senzory IoT provozního systému hlášení k analýze a spouštění událostí používaných pro údržbu, zabezpečení a provozní efektivitu.
Kdo tedy dnes Greenplum používá? Mezi zákazníky Greenplum patří společnosti American Express, Walmart, Asurian, Bank of America a mnoho dalších v oblasti bankovnictví, profesionálních služeb, médií, pojišťovnictví, zdravotnictví, automobilového průmyslu a maloobchodu.
Jak začít
Jak bylo zmíněno v tomto příspěvku, Greenplum je open source databáze, takže komunitní verze je zcela zdarma ke stažení a použití. Malá, ale aktivní komunita Greenplum vítá nové přispěvatele, přijímá zpětnou vazbu a spolupracuje s evangelisty Greenplum na propagaci databáze velkých dat.
Mnoho organizací využívajících Greenplum hledá další podporu a nástroje, které by jejich správcům databází pomohly řídit jejich nasazení. Zde jsou dvě různé možnosti správy databáze a podpory dostupné pro Greenplum:
ScaleGrid pro databázi Greenplum® – verze s otevřeným zdrojovým kódem
ScaleGrid for Greenplum® Database je plně spravované řešení pro open source verzi Greenplum, které bude spuštěno v květnu 2020. Multi-cloudová platforma vám umožňuje nasadit a spravovat na AWS, Cloudové platformy Azure nebo Google Cloud (již brzy) nebo on-premise prostředí VMware. ScaleGrid poskytuje uživatelům Greenplum pokročilé nástroje pro správu, které potřebují k nasazení jediným kliknutím, automatizuje zálohování a dynamicky se škáluje s možností zachovat plná oprávnění správce superuživatele nad jejich nasazeními s otevřeným zdrojovým kódem.
Pivotal Greenplum – komerční verze
Pivotal Greenplum, nyní VMware Tanzu je tvůrcem open source databáze, která nabízí komerční verzi databáze, která vám pomůže nasadit a spravovat Greenplum v cloudu a on-premise. Pivotal Greenplum nabízí mnoho výhod, jako je schopnost maximalizovat dobu provozuschopnosti, chránit integritu dat a snadno zpracovávat streamovaná data a cloudová data.
ScaleGrid i Pivotal Greenplum nabízejí pokročilé balíčky podpory, které pomohou vašim DBA optimalizovat nasazení Greenplum.