sql >> Databáze >  >> NoSQL >> HBase

Zlepšení výkonu operační databáze v CDP Private Cloud Base 7 vs. CDH5

Cloudera Data Platform (CDP) Private Cloud je nejkomplexnější místní platforma pro integrovanou analýzu a správu dat. Spojuje to nejlepší z Cloudera Enterprise Data Hub a Hortonworks Data Platform Enterprise Plus a přináší nejnovější a nejlepší open source technologie pro správu dat a analýzu do datového centra.

S nejnovější verzí (7) CDP Private Cloud Base jsme zavedli řadu nových funkcí a vylepšení. V tomto blogovém příspěvku bychom se rádi podělili o vylepšení výkonu dostupná v Apache HBase.

Pro ty, kteří s HBase začínají nebo je vyhodnocují pro nový projekt, je HBase nerelační distribuovaná databáze, které důvěřují architekti a vývojáři, kteří chtějí zpracovávat velké objemy dat včas a spolehlivě.

Pro toto srovnání výkonu jsme změřili HBase2 dostupnou v CDP Private Cloud Base 7 až Hbase1 dostupnou v CDH 5 pomocí pracovních zátěží YCSB. Srovnání nám pomáhá porozumět zlepšení výkonu a důsledkům pro zákazníky, kteří provádějí upgrady na místě bez jakýchkoli změn základního hardwaru.

Poznámka:Zákazníci, kteří upgradují z CDH 5 na CDP 7, získají také upgrade HBase z HBase1 na HBase2.

  • Vlastní úloha pouze aktualizace YCSB
    • Naše vlastní pracovní zátěž YCSB Update Only funguje 
      • Operace 100% AKTUALIZACE
    • Příkladem aplikace může být obchod s metrikami
    • Výkon pracovní zátěže: CDP 7 YCSB Update Only Propustnost běhu pracovní zátěže (operace za sekundu) byla o 20 % lepší než při spuštění s CDH5

  • Zatížení YCSBA 
    • Provádí se pracovní zátěž YCSB 
      • 50 % operací READ
      • 50 % operací AKTUALIZACE
    • Příkladem aplikace může být úložiště relací zaznamenávající nedávné akce v uživatelské relaci 
    • Výkon pracovní zátěže:CDP Private Cloud Base 7.1 HBase2 pracovní zátěž YCSB Propustnost (operace za sekundu) byla o 15 % lepší než CDH5 HBase1

  • YCSB Workload C (pouze pro čtení) 
    • YCSB Workload C je pracovní zátěž pouze pro čtení a provádí 
      • Operace 100% READ
    • Příkladem aplikace může být čtení mezipaměti uživatelského profilu, když jsou profily vytvořeny jinde (např. Hadoop) nebo bankovní systém pro přístup a zobrazení výpisů z účtu 
    • Výkon pracovní zátěže:CDP 7 YCSB pracovní zátěž C měla podobnou propustnost (operace za sekundu) jako CDH 5

Verdikt – CDP 7 poskytuje lepší výkon než CDH 5 v YCSB  

Vlastní vytížení Pouze aktualizace :Pouze pracovní zátěž CDP 7 YCSB byla provedena 20 % lépe než C5.

Úloha YCSB A :Pracovní zátěž CDP 7 YCSB A si vedla o 15 % lépe než CDH5.

Pracovní zátěž YCSB C :CDP 7 YCSB pracovní zátěž C pouze pro čtení měla podobné operace/propustnost na CDH 5 

Během našeho testování jsme si všimli, že upgrade z JDK8 na JDK 11 v rámci CDP 7 může zlepšit výkon o dalších 10 %. To je nad rámec zlepšení výkonu získaného upgradem z CDH5 na CDP7.

CDP 7 se standardně dodává s nainstalovaným JDK8 a podporuje upgrade na JDK11. V našich testovacích běhech byl CDP 7 aktualizován tak, aby používal JDK 11 pro běhy zátěže YCSB uvedené výše. Stejnou zátěž jsme provozovali také s JDK8 a výsledky testu ukázaly výkon JDK11 je o 5–10 % lepší ve srovnání s JDK8 , jak je znázorněno v níže uvedené tabulce

Chcete-li upgradovat CDP 7 z JDK 8 na OpenJDK 11, postupujte podle následujících kroků:

Krok 1:Nainstalujte OpenJDK11 na všechny hostitele pomocí níže uvedeného

RHEL 

sudo yum install java-11-openjdk

Ubuntu

sudo apt install openjdk-11-jdk

Krok 2:Pouze na hostiteli Cloudera Manager Server (není vyžadováno pro ostatní hostitele):

  1. Otevřete soubor /etc/default/cloudera-scm-server v textovém editoru.
  2. Upravte řádek, který začíná exportem JAVA_HOME (pokud tento řádek neexistuje, přidejte jej) a změňte cestu k cestě nového JDK (JDK se obvykle instaluje do / usr/lib/jvm)(nebo /usr/lib64/jvm na SLES 12), ale cesta se může lišit v závislosti na způsobu instalace JDK).

Další informace o upgradu JDK naleznete na Upgrade JDK

Testovací prostředí

Metodika testu

Na cluster byl nainstalován CDH 5.16.3/HBase1 a byla vygenerována data o pracovní zátěži s 1 miliardou řádků (velikost datové sady 1 TB) a byly spuštěny úlohy CDH 5.16.3 YCSB. Po načtení jsme před zahájením testu pracovního zatížení čekali na dokončení všech zhutňovacích operací.

Po dokončení běhů CDH 5.16.3 byla čistá instalace CDP Private Cloud Base 7.1 HBase2 a data znovu vygenerována ve stejném clusteru. Poté byly spuštěny pracovní zátěže CDP Private Cloud Base 7.1 YCSB, aby se získalo načasování testu. Před každým spuštěním zátěže jsme inicializovali tabulku HBase používanou YCSB. Snímek uživatelské tabulky utable_snap byly vytvořeny a použity před každým spuštěním.

Každá testovaná zátěž byla spuštěna 3krát po dobu 15 minut, aby se změřila propustnost*. Zobrazené výsledky jsou průměry ze 3 testů.

*Propustnost (ops/s) =počet operací za sekundu

CDP Private Cloud Base 7.1 obsahuje HBase2 a CDH 5.16.3 obsahuje HBase1. CDP Private Cloud Base 7.1 i CDH5 mají nainstalovaný JDK 8. CDP Private Cloud Base 7.1 podporuje JDK11 a CDP Private Cloud Base 7.1 byl aktualizován tak, aby používal JDK 11 pro testování YCSB, běhy CDH 5.13.3 byly spuštěny s JDK 8 (1.8.0_141)

Test konfigurace

  • YCSB verze 0.17.0
  • Verze vazby YCSB hbase2(CDP-CD 7.1) a hbase1(CDH 5) 
  • Klienti YCSB použili 2
  • Vlákna YCSB na klienta 20
  • Velikost dat
    • YCSB tabulka @1TB měřítko
    • Celkový počet záznamů v tabulce YCSB 1 000 000 000 (1 TB), každý záznam má 1 kB
    • Počet regionů v tabulce YCSB 250, s uzlovým clusterem 5+1 a přibližně 50 regionů na server regionu
    • Průměrný region využitý na velikost serveru 290G
  • Servery HBase Region byly nakonfigurovány s 32GB haldou 
  • Byla použita pouze mezipaměť L1 s LruBlockCache s velikostí mezipaměti 12,3 GB
  • Procento zásahu do mezipaměti L1 zaznamenané během běhů na regionálních serverech bylo 85 %
  • Vypnutá mezipaměť haldy L2 nebyla v clusteru nakonfigurována

Konfigurace clusteru

  • Použitý cluster: 6 uzlový cluster (1 hlavní + 5 regionálních serverů)
  • Popis: Dell PowerEdge R430, 20c/40t Xenon e5-2630 v4 @ 2,2 GHz, 128 GB RAM, 4–2 TB disky
  • Zabezpečení: Není nakonfigurováno (žádné Kerberos)

Porovnání verzí Cloudera

Verze C7 :CDP Private Cloud Base 7.1.0

Verze C5: CDH5.16.3

Použité JDK:JDK 8 ( 1.8.0_141) a JDK 11 (11.0.6)

Na základě našeho testování (výsledky výše) by zákazníci, kteří chtějí upgradovat z CDH 5 na CDP 7, měli očekávat lepší výkon pro podobné pracovní zatížení ve srovnání s tím, co dostávají dnes.

Další informace o Cloudera Operational DB zde


  1. Konverze slovníku<řetězec, objekt>-na-BsonDocument s vynecháním pole _t

  2. Dynamické připojení databáze k mongodb nebo mongoose od nodejs

  3. Odstranění kaskádového stylu v Mongoose

  4. 4 způsoby aktualizace dokumentu v MongoDB