sql >> Databáze >  >> NoSQL >> HBase

Provozní dostupnost databáze

Tento blogový příspěvek je součástí série o provozní databázi Cloudera (OpDB) v CDP. Každý příspěvek obsahuje více podrobností o nových funkcích a možnostech. Začněte od začátku série s, Operační databáze v CDP.

Cloudera OpDB poskytuje bohatou sadu funkcí pro ukládání a přístup k datům. V tomto příspěvku na blogu se podíváme na možnosti přístupnosti OpDB a na to, jak můžete tyto možnosti využít pro přístup ke svým datům.

Distribuce a sdílení

Operační databáze Cloudera (OpDB) je škálovatelný systém správy databází (DBMS), který je navržen tak, aby se lineárně škáloval na petabajty dat. Stejně jako všechny DBMS je škálování implementováno pomocí shardingu. Jsou podporovány dvě různé zásady sdílení:

  • Automatické sharding
  • Předdefinované sharding

Bez ohledu na přístup existují rozhraní API, která umožňují sdílení založené na hash, rozsahu hodnot a kombinaci obou.

Automatické sdílení

Když je povoleno automatické sharding, tabulky jsou dynamicky distribuovány v rámci clusteru, a když velikost fragmentu překročí konfigurovatelný limit, je automaticky rozdělena a přesunuta mezi servery v clusteru.

Segment tabulky se prostředním tlačítkem rozdělí na dvě, čímž se vytvoří dvě zhruba stejné poloviny a tyto dvě poloviny mohou být obsluhovány různými servery.

Automatizované sharding je aplikováno bez ohledu na síť, která se používá s OpDB (WAN nebo místní). Clustery lze nastavit tak, aby pokrývaly WAN, v takovém případě by došlo ke sdílení a přesunu dat napříč WAN s nulovou ztrátou dat.

Systém lze nakonfigurovat tak, aby věděl, které uzly jsou ve kterých datových centrech, což poskytuje další odolnost fragmentů, protože kopie fragmentů lze distribuovat mezi více datových center.

Předdefinované sdílení

Střepy lze omezit na konkrétní podmnožiny uzlů v klastru na základě zásad, obvykle způsobem specifickým pro tenanta. To umožňuje implementaci geograficky založených politik. Poté lze tabulky replikovat mezi clustery a nastavit je pomocí zásad, aby bylo zajištěno, že replikace tabulek a souvisejících fragmentů bude omezena na požadované geografické oblasti.

OpDB společnosti Cloudera poskytuje nativní podporu pro suverenitu dat. Pokud cluster zahrnuje více zemí, lze skupiny serverů regionu použít k ukotvení dat v konkrétních zemích spolu s konfigurací izolace HDFS Rack.

Dotazy

Cloudera poskytuje tři dotazovací stroje optimalizované pro různé typy případů použití, operační i analytické, a rozhraní NoSQL umožňující optimalizovaný výkon v širokém rozsahu provozních i datových skladů. To umožňuje provádění dotazů a spojení dat napříč více datovými fragmenty.

Cloudera OpDB poskytuje nativní OLTP SQL engine, který podporuje dotazování na více datových a objektových modelů včetně dotazování a spojování napříč nimi. Dva z našich dotazovacích strojů OLAP lze použít k mapování externích tabulek, které se nacházejí v naší OpDB (nebo na jiných místech) a mohou se v nich dotazovat nebo se spojovat pro složitější analytické dotazy typické pro datové sklady

Nástroje pro integraci dat

Cloudera poskytuje několik nástrojů, které umožňují integraci s datovými sklady a federovaným zpracováním dotazů.

Například:

  • Hromadný export do datového skladu zajišťují Flink, Spark, Hive a MapReduce
  • Streamování exportu do datového skladu zajišťuje Nifi
  • Dotaz na data na místě v rámci naší OpDB poskytují společnosti Phoenix, Impala a Hive 
  • Federované zpracování dotazů napříč naší OpDB, řešení datových skladů a řešení datových skladů třetích stran poskytuje Hive

Podpora externích dat

Cloudera OpDB obsahuje mnoho nástrojů Hadoop a integruje se s většinou ekosystému Hadoop.

Naše OpDB poskytuje rozhraní NoSQL a SQL. Neexistují žádná omezení pro toto rozhraní a je velmi dobře podporováno v komunitě Hadoop.

Mobilní OpDB

MiNiFi lze používat na přenosných zařízeních na okraji a poskytuje datové připojení s OpDB.

Editor dotazů HUE lze spustit na mobilním nebo přenosném zařízení.

Standardní připojení

Cloudera poskytuje ovladače JDBC i ODBC poskytované prostřednictvím našich SQL engine kromě přímého přístupu API k našim datovým úložištím a nástrojům.

Další

V tomto příspěvku na blogu jsme se podívali na některé možnosti usnadnění přístupu OpDB, jako je dotazování na data, integrace dat a konektivita. V příštím článku se budeme zabývat tím, jak můžete využít možnosti administrace v OpDB, najdete je zde.

Další informace najdete na:Začínáme s provozní databází.


  1. NodeJS – bezpečně se připojte k externímu serveru redis

  2. Získejte seznam indexů v MongoDB

  3. Průvodce MongoDB s Java

  4. Stejný úkol byl proveden několikrát