sql >> Databáze >  >> NoSQL >> HBase

Replikace operační databáze Cloudera v kostce

V tomto předchozím příspěvku na blogu jsme poskytli přehled na vysoké úrovni Cloudera Replication Plugin, vysvětluje, jak přináší multiplatformní replikaci s malou konfigurací. V tomto příspěvku pokryjeme, jak lze tento plugin použít v CDP clusterech, a vysvětlíme, jak plugin umožňuje silnou autentizaci mezi systémy, které nesdílejí vzájemnou autentizační důvěru.

Použití modulu Operational Database Replication Plugin

Plugin pro replikaci operačních databází je k dispozici jako samostatný plugin i automaticky se instaluje prostřednictvím Cloudera Replication Manager. Plugin umožňuje zákazníkům nastavit téměř v reálném čase replikaci dat HBase z CDH/HDP/AWS EMR/Azure HDInsight clusterů do CDP Private Cloud Base a/nebo CDP Operational Database (COD) ve veřejném cloudu. Je také automaticky nasazena při použití Cloudera Replication Manager k nastavení replikace mezi CDP Private Cloud Base a COD nebo mezi COD instancemi ve veřejném cloudu. Cloudera Replication Manager také umožňuje zkombinovat funkci HBase snapshot s tímto pluginem a také spravovat replikaci již existujících dat v jediném nastavení.

Pokyny k instalaci naleznete v části Zásady replikace HBase téma v Správci replikací oficiální dokumentace.

U starších verzí CDH/HDP je plugin poskytován jako balíček, který se instaluje pouze do staršího clusteru.

  • CDH 5.x
  • CDH 6.x
  • HDP 2.6
  • HDP 3.1
  • EMR 5.x &6.x

Balíček je verze uzamčena s binárními soubory specifickými pro verzi. Pro každou z výše uvedených verzí by měla být pořízena pro každý cluster. Pokud máte zájem o některý z nich, kontaktujte svůj prodejní tým Cloudera.

Podrobnosti o implementaci

Překážku řeší Plugin Operational Database Replication Plugin je vzájemná autentizace mezi clustery pod různými konfiguracemi zabezpečení. Připomínáme tento předchozí blogový příspěvek, výchozí replikace HBase vyžaduje, aby oba clustery buď vůbec nebyly nakonfigurovány pro zabezpečení, nebo byly oba nakonfigurovány se zabezpečením. V druhém případě musí být oba clustery buď ve stejné oblasti Kerberos, nebo musí mít v systému Kerberos nastavenou autentizaci napříč oblastmi. To by byla další výzva v kontextu CDP, kde každé prostředí běží na samostatné bezpečnostní oblasti. Abychom tomu porozuměli podrobněji, musíme zkontrolovat, jak je implementováno zabezpečení Apache HBase.

Použití SASL k vytvoření důvěry

Při replikaci HBase se RegionServery ve zdrojovém clusteru spojí s RegionServery v cílovém clusteru prostřednictvím připojení RPC. Když je zabezpečení povoleno, ověřování se provádí ve fázi navazování připojení RPC pomocí rámce Simple Authentication and Security Layer (SASL). HBase již poskytuje následující vestavěnou Ověření SASL mechanismy:kerberos, digest a jednoduché. Když je kerberos povoleno, pověření ze zdrojového klastru bude očekáváno cílovým klastrem, který pak ověří tato pověření proti vlastnímu KDC pomocí SASL kerberos mechanismus. To závisí na kerberos GSSAPI implementace pro autentizaci poskytnutých pověření vůči cílovému clusteru KDC, proto důvěra pro principála zdrojového clusteru musela být implementována na úrovni systému kerberos buď tím, že oba clustery budou mít přihlašovací údaje ve stejné oblasti, nebo aby KDC cílového clusteru důvěřovalo přihlašovacím údajům z říše zdrojového clusteru (přístup běžně známý jako cross-realm autentizace).

Rozšíření ověřování HBase SASL 

Naštěstí je SASL navržen tak, aby umožňoval vlastní implementace ověřování. To znamená, že by bylo možné navrhnout řešení založené na SASL, pokud by bylo možné do sady vestavěných možností uvedených výše zapojit další mechanismus SASL. S tímto cílem Cloudera navrhla refaktoring vrstvy RPC HBase, která byla zkontrolována a přijata komunitou Apache HBase v HBASE-23347 .

Zapojitelný mechanismus SASL

Se změnami zavedenými HBASE-23347 lze pomocí konfigurace HBase definovat další mechanismy autentizace SASL, které bude používat vrstva RPC. Příchozí připojení RPC definují konkrétní typ SASL v hlavičce, poté server RPC vybere konkrétní implementaci, aby provedl skutečnou autentizaci:

Plugin pro replikaci operačních databází implementuje svůj vlastní mechanismus SASL, který umožňuje clusterům v různých sférách Kerberos komunikovat s bezproblémovým konfiguračním úsilím (bez potřeby kerberos cross-realm ). Rozšiřuje replikaci HBase tak, že zdroj vytváří SASL token Replication Plugin vlastní typ, s pověřeními od předem definovaného uživatele stroje v cílovém clusteru COD. Tento typ uživatele lze snadno vytvořit z Cloudera Management Console UI, a poté se šíří do klastru COD, který je základem autority ověřování Kerberos. Podrobné pokyny k vytváření uživatelů replikačního stroje jsou uvedeny v části předběžných požadavků v dokumentaci Cloudera Replication Manager.

Když server RPC v cíli přečte token a identifikuje, že se jedná o Replikační plugin typu jsou související přihlašovací údaje analyzovány z tokenu a použity k ověření.

Plugin pro replikaci operačních databází používá ověřování PAM k ověření přihlašovacích údajů uživatele počítače. Clustery COD jsou vždy opatřeny ověřováním PAM proti bezpečnostní doméně FreeIPA prostředí CDP.

Zabezpečení přihlašovacích údajů uživatele stroje

Zásadním problémem v tomto řešení je, že zdrojový cluster musí získat pověření od uživatele počítače cílového clusteru. Ze zřejmých důvodů by to nemělo být v konfiguraci zdroje žádným způsobem odhaleno. Tyto přihlašovací údaje jsou také odesílány po drátě v tokenu SASL v rámci připojení RPC, takže musí být před přenosem zašifrovány. Replikační plugin poskytuje svůj vlastní nástroj pro generování jceks zašifrovaný soubor obsahující přihlašovací údaje uživatele stroje. Jakmile je tento soubor vytvořen, musí být zkopírován do obou clusterů a zpřístupněn pomocí hbase pouze uživatel. Níže uvedený diagram ukazuje přehled nasazení Pluginu Operational Database Replication Plugin komponenty integrující se do standardních replikačních tříd HBase v kontextu RegionServers. Růžové rámečky představují replikační a RPC spojovací kód již poskytnutý HBase, zatímco žluté rámečky znázorňují abstraktní vrstvu zavedenou v HBASE-23347. Nakonec oranžové třídy zvýrazňují relevantní artefakty implementující Plugin Operational Database Replication Plugin logika.

Závěr

Replikace je cenným nástrojem pro implementaci řešení migrace DR a DC pro HBase. Při řešení bezpečnostních konfigurací klastrů má několik výhrad, jak je zde uvedeno. Schopnost migrovat data ze současných „on-prem“ nasazení do CDP clusterů v cloudu je však nezbytná. Zásuvný modul Cloudera Operational Database Replication přináší flexibilitu při integraci zabezpečených clusterů spolu s lepší udržovatelností pro tuto integraci zabezpečení, protože je zcela implementována na úrovni HBase, na rozdíl od kerberos cross-realm, což vyžaduje změny v definici systému Kerberos, za které často zodpovídá úplně jiný tým s vlastními omezujícími politikami.

Vyzkoušejte šablonu Operační databáze v Cloudera Data Platform (CDP)!


  1. Redis distribuovaný přírůstek s aretací

  2. Agregační dotaz Mongoose selže v testu Jest/Mockgoose, funguje jinde

  3. pořadí řazení mongodb na _id

  4. Úvod do Apache HBase Snapshots, část 2:Deeper Dive