sql >> Databáze >  >> NoSQL >> HBase

Provozní správa databáze

Poznámka redakce, srpen 2020:CDP Data Center se nyní nazývá CDP Private Cloud Base. Více se o tom můžete dozvědět zde.

Úvod

Tento blogový příspěvek je součástí série o provozní databázi Cloudera (OpDB) v CDP. Každý příspěvek obsahuje více podrobností o nových funkcích a možnostech. Začněte od začátku série s, Operační databáze v CDP.

Tento blogový příspěvek vám poskytuje přehled nástrojů a funkcí pro správu operační databáze (OpDB) v datové platformě Cloudera. Dnes je k dispozici ve dvou formách:jako plně bezpečná, částečně řízená nabídka v CDP Public Cloud – Data Hub a jako plně přizpůsobitelná nabídka v CDP Data Center (podobná tomu, co je k dispozici v CDH a HDP). Další informace o Data Hub najdete v článku Cloudera Data Hub.

Obr. 1:Cluster datového centra OpDB.

Pomocí odkazů v tomto článku můžete získat další informace a pokyny k používání těchto funkcí.

Vytváření a ovládání databáze

Jmenné prostory Apache HBase jsou logické skupiny tabulek, které jsou podobné databázi v tradičním relačním databázovém systému. Jmenné prostory lze vytvářet nebo spravovat prostřednictvím prostředí Apache HBase Shell. Další informace o použití prostředí Apache HBase naleznete v tématu Přehled prostředí Apache HBase.

S Replication Manager &Ranger na obrázku s CDP můžete vytvořit jmenný prostor a spravovat jej pouze v prostředí HBase. Ale oprávnění jsou přes Ranger a replikace je přes Replication Manager.

Stejně jako v relační databázi obsahují jmenné prostory kolekce tabulek a oprávnění, nastavení replikace a izolaci zdrojů. Tyto konfigurace můžete nastavit na úrovni jmenného prostoru. V CDP můžete vytvořit jmenný prostor a spravovat jej pomocí prostředí HBase. Apache Ranger můžete použít pro jemné autorizační zásady a auditování. Další informace o tom, jak nastavit zabezpečení v CDP, najdete v tématu Zabezpečení pomocí Ranger.

Správce replikací vám pomůže vytvořit zásady replikace HBase. K nastavení replikace mezi CDH/HDP nebo Apache HBase do CDP Data Center můžete použít Replication Manager.

Obr. 2:Vytvoření uživatelského rozhraní politiky replikace

Grafické funkce DDL a DCL

K tomu je k dispozici několik nástrojů, včetně zásuvných modulů pro:

  • Cloudera Machine Learning (CML):CML vám pomáhá dotazovat se na data pomocí klienta HBase a Phoenix a pomáhá vám při interaktivním průzkumu dat, vizualizaci, sdílení a spolupráci. OpDB lze použít k uložení výsledků predikce relace/úlohy/modelu pro pozdější dotazování několika různými uživateli.

Obr 3:Uživatelské rozhraní Cloudera Machine Learning

  • Hue:Hue je webový interaktivní editor dotazů, který umožňuje interakci s datovými sklady. K vytváření a procházení tabulek HBase můžete použít aplikaci Prohlížeč HBase v Hue.

Obr 4:Rozhraní Hue podporuje vyhledávání, vkládání, aktualizaci, mazání, DDL pro HBase

Pro zpracování dotazů v Hue můžete použít rozhraní SQL pomocí Impala nebo Hive.

Obr. 5:SQL rozhraní pomocí Impala

Zde je návod, jak vytvořit ukázkové tabulky v HBase pomocí Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/  

  • Eclipse:Formátování kódu HBase pro Eclipse je užitečné při úpravách kódu HBase v Eclipse. Další informace najdete v tématu Vytváření a vývoj Apache HBase.

Nástroje jako Zeppelin a Hue spolu s jejich zásuvnými moduly jsou dodávány ihned po vybalení. Můžete však také použít nástroje SQL třetích stran, jako je Toad.

Nástroje pro aktualizaci verze operační databáze

Cloudera Manager můžete použít k automatizaci procesu upgradu provozní databáze ve vašem datovém centru Cloudera Data Platform-Data Center (CDP-DC). Upgrady jsou poskytovány prostřednictvím vydání nebo opravných oprav. Cloudera Manager nainstaluje vydání a/nebo opravy a spravuje konfiguraci i proces restartu.

Pokud používáte CDP na veřejném cloudu, jako je Amazon AWS, musíte vytvořit nový cluster Data Hub, abyste mohli upgradovat na nové verze různých komponent. Další informace o vytvoření nové provozní databáze cluster Data hub najdete v části Začínáme s provozní databází na CDP.

Nabídka Cloudera je nabídka založená na clusteru; upgrady a záplaty všechny zahrnují více uzlů (serverů) a instalace, konfigurace a restartování jsou automatické, včetně postupných restartů tam, kde je to vhodné.

Nástroje pro správu oprav na více serverech

Cloudera Manager v CDP Data Center nainstaluje vydání a spravuje konfiguraci. Cloudera Manager také provádí proces restartování pro každou z ovlivněných komponent.

Aplikace opravy s nulovým výpadkem

V CDP Data Center vám Cloudera Manager umožňuje aplikovat záplaty s nulovými prostoji.

Správa změn na více serverech

Správa změn databázových schémat můžete provádět ve více instancích. Můžete to udělat například ve svém testovacím/vývojářském, pracovním nebo produkčním prostředí.

Požadované změny můžete naskriptovat pomocí prostředí HBase a poté je přenést do ostatních instancí.

Další informace o použití prostředí HBase najdete v tématu prostředí Apache HBase.

Rozdělení pracovní zátěže

Dělení zátěže/aplikace v rámci OpDB můžete provádět pomocí několika nástrojů v závislosti na povaze sady úloh a jejich datových potřebách.

Pokud všechny aplikace přistupují k samostatným tabulkám, lze skupiny serverů regionů použít k vyhrazení sady uzlů pro definovanou sadu tabulek nebo jmenných prostorů, čímž se vytvoří přístup k hardwarovému rozdělení. Další informace o skupinách serverů regionů najdete v tématu Použití seskupování regionů.

U aplikací, které používají stejnou sadu tabulek, můžete ke správě problému s hlučným sousedem použít omezení RPC, uživatelské kvóty a kvóty prostoru. Další technické podrobnosti naleznete v části Správa nabídek HBase.

Tyto dvě sady možností můžete také zkombinovat, abyste získali sofistikovanější schéma rozdělení. Použijte Cloudera Manager k zajištění toho, že konkrétní služby jsou vhodně rozděleny mezi různé uzly clusteru; můžete se například rozhodnout, které uzly se mají použít pro vyhledávání SOLR atd.  

Rozdělení hardwaru

Cloudera Manager a YARN využívají linuxové cgroups a aktivní správu paměti pro statické i dynamické dělení hardwarových prostředků.

Za prvé, všechny procesy běžící na všech hostitelích mohou být pevně rozděleny pomocí cgroups, které nastaví Cloudera Manager. Za druhé, průvodce umožňuje uživatelům definovat rozvržení statických oddílů pro služby nastavením procent, automatickým překladem izolace CPU a I/O na bázi cgroup a nastavuje limity paměti konfigurací služeb samotných.

A konečně, nativní správce zdrojů poskytuje model kontejneru pro pracovní zátěže, který vkládá každou samostatnou jednotku práce do kontejneru pomocí cgroups a aktivní správy paměti (nastavení, monitorování a zabíjení) pro izolaci aplikací.

Softwarové hypervizory

Podporovány jsou následující softwarové hypervizory

  • VMware je podporováno pro on-prem prostředí
  • Virtuální prostředí Azure od Microsoftu (Azure stack)
  • V cloudu jsou podporovány webové služby Amazon, virtualizace platformy Google Compute Platform a Microsoft Azure.

Podpora kontejnerů a orchestrace

Cloudera poskytuje obraz Dockeru, který má nainstalované Apache HBase, Apache ZooKeeper a Cloudera Manager. Můžete nakonfigurovat YARN pro správu vašich kontejnerů Docker a odesílat úlohy Apache HBase do YARN ve stejném kontejneru nebo odesílat úlohy do YARN z jiného kontejneru.

Další informace najdete v tématu Správa kontejnerů Docker na YARN.

Vrácení oprav nebo aktualizací vydání

Cloudera Manager poskytuje automatizaci pro některé procesy vrácení zpět. Upgrady mohou někdy zahrnovat změny v datových formátech. Nástroje pro vrácení změn formátu nejsou podporovány a musíte spustit obnovu dat ze záloh, aby bylo možné vrátit zpět stará data.

Migrace mezi operačními systémy

Pro podporu migrace OpDB mezi různými operačními systémy jsou k dispozici standardní nástroje pro zálohování/obnovu/obnovu dat Cloudera.

Strategie zálohování a obnovy po havárii HBase zajišťují, že vaše data budou zálohována, abyste byli chráněni před ztrátou dat. HBase snapshot vám umožňuje pořídit snímek tabulky bez velkého dopadu na RegionServers. Také proto, že operace snímkování, klonování a obnovy nezahrnují kopírování dat.

Další informace o zálohování a havárii HBase najdete v tématu Strategie zálohování a obnovy HBase.

Nástroje správce databáze (DBA)

Existuje mnoho nástrojů pro podporu správy databáze, včetně:

  • Správce Cloudera
  • HBase shell
  • Odstín
  • HBCK2 
  • hbtop
  • Ranger 
  • Atlas
  • FreeIPA 
  • navencrypt 
  • Nástroje HDFS
  • PŘÍZE

Tyto nástroje poskytují metriky a monitorování, restart klastru, přidávání ingestu, správu životního cyklu, upgrady, zabezpečení, nastavení Kerberos a další funkce.

Obr. 6:Rozhraní Cloudera Manager HBase

Obr 7:Metriky a monitorování v Cloudera Manager:

Obr. 8:Restart klastru v Cloudera Manager

Kromě těchto nástrojů můžete také použít následující nástroje pro správu třetích stran a open source:

  • hrider
  • HADMIN

Otevřete zdokumentovaná rozhraní pro nástroje pro správu třetích stran

Poskytujeme také otevřená rozhraní API, která umožňují použití dalších nástrojů ke správě OpDB. Například rozhraní JMX lze použít k integraci s monitorovacími nástroji třetích stran, jako je Grafana.

Závěr

V tomto blogovém příspěvku jsme se podívali na to, jak můžete využít různé administrativní nástroje a možnosti poskytované OpDB v CDP. V příštím článku se budeme zabývat tím, jak můžete využít možnosti správy v OpDB, podívejte se zde.


  1. Mongoose:CastError:Odeslání do ObjectId selhalo pro hodnotu [object Object] na cestě _id

  2. Testování jednotek s MongoDB

  3. Měli byste povolit žurnálování MongoDB?

  4. Jak se bezpečně připojit k Heroku Redis přes příkazový řádek?