sql >> Databáze >  >> NoSQL >> HBase

Vydání CDH 6.2:Co je nového v HBase

Cloudera nedávno spustila CDH 6.2, který obsahuje dvě nové klíčové funkce v Apache HBase:

  1. Sériová replikace
  2. Bucket cache nyní podporuje paměť Intel Optane

Sériová replikace

HBase má sofistikovaný mechanismus asynchronní replikace, který dnes podporuje komplexní topologie, které zahrnují globální kruhovou, dvoucestnou, span-in a span-out topologii.

Tato replikační schopnost k dnešnímu dni poskytuje konečnou konzistenci – což znamená, že pořadí, ve kterém jsou aktualizace replikovány, nemusí být nutně stejné jako pořadí, ve kterém byly aplikovány na databázi. I když to pro mnoho zákazníků fungovalo, pořadí aktualizací na koncovém bodu replikace bylo důležité pro mnoho případů použití.

Funkce sériové replikace poskytuje konzistenci časové osy pro replikaci. Jinými slovy, pořadí aktualizací je zachováno prostřednictvím replikace do cílového clusteru. Tato konzistence je mírně nákladná a v některých případech mohou uživatelé zjistit, že replikace je o něco pomalejší než výchozí replikační přístup.

Konfigurace této možnosti je poměrně jednoduchá (nastavte příznak SERIAL na hodnotu true) a lze ji použít v době nastavení replikace nebo kdykoli poté na úrovni tabulky, na úrovni jmenného prostoru nebo pro peer, který replikuje všechny tabulky v HBase.

mezipaměť segmentu HBase

Segmentová mezipaměť HBase je dvouvrstvá mezipaměť, která je navržena tak, aby zlepšila připravený výkon v různých případech použití. První vrstva je v hromadě Java a druhá vrstva mezipaměti může být umístěna na mnoha různých místech, včetně:off-heap paměti, paměti Intel Optane, SSD nebo HDD.

Doporučená konfigurace pro druhou vrstvu bucket cache pro většinu zákazníků byla nedostupná. Nasazení v této konfiguraci jsou schopna škálovat na mnohem větší velikosti paměti, než je možné s vestavěnou mezipamětí na haldě, protože jádro mimo haldu se vyhýbá tlaku na shromažďování odpadu JVM. Větší velikost mezipaměti poskytuje výrazně lepší výkon čtení HBase.

Počínaje CDH 6.2 nyní Cloudera zahrnuje možnost používat nově vydanou paměť Optane Memory od Intelu jako alternativní cíl pro 2. vrstvu bucket cache. Tato konfigurace nasazení vám umožňuje mít ~3x větší velikost mezipaměti za konstantní náklady (ve srovnání s mezipamětí mimo haldu na DRAM). Ve srovnání s tradiční konfigurací off-heap to přináší určitou další latenci, ale naše testování ukazuje, že tím, že se do mezipaměti vejde více (ne-li celá) pracovní sada dat, vede nastavení ke zlepšení čistého výkonu, když data je nakonec uložen na HDFS (pomocí HDD).

Při nasazení do cloudu nebo použití on-prem objektového úložiště bude zlepšení výkonu ještě lepší, protože objektové úložiště bývá velmi drahé pro náhodné čtení malého množství dat. Níže uvedená tabulka poskytuje představu o nákladech, velikosti a latenci, které jsou potřeba při plánování konfigurace druhé vrstvy mezipaměti segmentu.

Úložiště Cena $ / GB Velikost (konstantní cena) Latence
Nevyužitá DRAM 35 1,0 GB ~70 ns
Intel Optane¹ 13 2,7 GB 180–340 ns
SSD 0,15 233,3 GB 10-100 µs
HDD² 0,027 1,3 TB 4–10 ms
Úložiště objektů³ 0,006 5,8 TB 10–100 ms

Přečtěte si tento blog, kde se dozvíte více o spolupráci Intel a Cloudera při využití Optane DC Persistent Memory pro zlepšení výkonu.

Reference:

  1. Přehled výkonu trvalé paměti Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) – minuta 6:53,
    https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
    https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance,39007.html
  2. https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
    https://www.westerndigital.com/ produkty/jednotky-datova-centra#hard-disk-hdd
  3. https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf

  1. Import CSV pomocí schématu Mongoose

  2. Jaká je výhoda použití vlastního backendu Gorilla sessions?

  3. Databáze grafů vs. databáze dokumentů vs. Triplestores

  4. ScaleGrid oznamuje MongoDB hostingové služby v Kanadě