sql >> Databáze >  >> NoSQL >> HBase

Co bude dál pro Impala po vydání 1.1

V prosinci 2012, kdy byla Cloudera Impala stále ve fázi beta, jsme poskytli plán plánovaných funkcí v produkční verzi. Ve stejném duchu, aby byli uživatelé, zákazníci a nadšenci Impala dobře informováni, tento příspěvek poskytuje aktualizovaný plán pro nadcházející verze koncem tohoto roku a začátkem roku 2014.

Nejprve však poděkování:Od prvního vydání beta jsme obdrželi obrovské množství zpětné vazby a ověření ohledně Impala – hojné co do kvality i kvantity. Nejméně jedna osoba z přibližně 4 500 unikátních organizací po celém světě si k dnešnímu dni stáhla binární soubor Impala. A i po pouhých několika měsících GA jsme viděli, jak zákazníci Cloudera Enterprise z různých odvětví nasazují Impala 1.x v kritických obchodních prostředích s podporou prostřednictvím předplatného Cloudera RTQ (Real-Time Query) – včetně předních organizací v pojišťovnictví, bankovnictví, maloobchod, zdravotnictví, hry, státní správa, telekomunikace a reklama.

Kromě toho, na základě reakcí ostatních dodavatelů v oblasti správy dat, jen málo pozorovatelů by zpochybnilo názor, že Impala učinila interaktivní SQL dotazy s nízkou latencí pro Hadoop stejně důležitým požadavkem zákazníků jako vysokolatenční, dávkově orientované SQL dotazy. povoleno Apache Hive. To je skvělý vývoj pro uživatele Hadoop všude!

Co bylo dodáno v Impala 1.0/1.1

Začněme vysvědčením o dříve publikovaném plánu Impala 1.0/1.1. Zde je seznam funkcí seskupený podle stavu doručení:

Doručeno:

  • Podpora pro formát Parquet, formát souboru Apache Avro a textové soubory komprimované LZO
  • Podpora stejných platforem 64bitových OS jako u CDH
  • Ovladač JDBC
  • Podpora DDL
  • Rychlejší, větší a paměťově úspornější spojení
  • Rychlejší, větší a paměťově efektivnější agregace
  • Více optimalizací výkonu SQL

Odloženo na základě zpětné vazby od zákazníků:

  • Manipulace s opozdilci
  • Automatická aktualizace metadat

Kromě toho, díky přidání modulu Apache Sentry (inkubace), Impala 1.1 a novější nyní také poskytují granulární autorizaci založenou na rolích, což zajišťuje, že správní uživatelé a aplikace mají přístup ke správným datům. (S nedávným příspěvkem Sentry k inkubátoru Apache a HiveServer2 k Hive od Cloudery má Hive 0.11 a novější tuto funkci také.)

Udělalo se hodně práce, ale práce je ještě hodně. Nyní k vlně Impala 2.0.

Blízký plán

Následující nová funkce Impala bude uvolňována postupně v nejbližších budoucích verzích, počínaje Impala 1.2 na konci roku 2013 a konče Impala 2.0 v první třetině roku 2014. Kromě toho uvidíte další zvýšení výkonu a vylepšení funkcí SQL v každé vydání – s cílem rozšířit výkonnostní náskok Impaly oproti alternativním přístupům SQL-on-Hadoop u starších prodejců relačních databází i prodejců distro Hadoop.

Vezměte prosím na vědomí, že jako vždy v případě cestovních map, časové osy a funkce se vždy mohou změnit. To, co vidíte níže, však zachycuje náš aktuální plán záznamu.

Impala 1.2

  • UDF a rozšiřitelnost – umožňuje uživatelům přidávat vlastní funkce; Impala bude podporovat stávající Hive Java UDF a také vysoce výkonné nativní UDF a UDAF
  • Automatické obnovení metadat – umožňuje bezproblémovou dostupnost nových tabulek a dat pro dotazy Impala, když jsou přidávány, aniž by bylo nutné provádět ruční obnovení na každém uzlu Impala
  • Ukládání do mezipaměti HDFS v paměti – umožňuje přístup k často používaným datům Hadoop rychlostí v paměti
  • Optimalizace objednávky připojení na základě nákladů – zbavuje uživatele nutnosti uhodnout správnou objednávku připojení
  • Náhled správce zdrojů integrovaného do YARN – umožňuje upřednostňovat pracovní zátěže s jemnější granularitou než izolace na úrovni služeb, která je v současnosti poskytována v Cloudera Manager

Impala 2.0

Níže uvedený seznam zachycuje pouze větší, nejčastěji požadované funkce; není v žádném případě kompletní.

  • Analytické funkce okna vyhovující SQL 2003 (agregace OVER PARTITION) – poskytují pokročilejší analytické schopnosti SQL
  • Další ověřovací mechanismy – včetně možnosti zadat uživatelské jméno/hesla navíc k již podporované autentizaci Kerberos
  • UDTF (uživatelem definované funkce tabulky) – pro pokročilejší uživatelské funkce a rozšiřitelnost
  • Vnitrouzlové paralelní agregace a spojení – poskytují ještě rychlejší spojení a agregace navíc ke zvýšení výkonu Impala
  • Vnořená data – umožňuje dotazy na složité vnořené struktury včetně map, struktur a polí
  • Vylepšený správce zdrojů připravený k výrobě a integrovaný do YARN
  • Vylepšení parket – trvalé zvyšování výkonu včetně indexových stránek
  • Další datové typy – včetně typu Datum a Desítková
  • ORDER BY bez doložek LIMIT

Přes Impala 2.0

Následující seznam funkcí jsou ty, které v současné době očekáváme, že budou přítomny ve verzi 2.1 nebo ve vydání brzy poté:

  • Další analytické funkce SQL – ROLLUP, CUBE a GROUPING SET
  • Apache HBase CRUD – umožňuje použití Impala pro vkládání a aktualizace do HBase
  • Externí spojení pomocí disku – umožňuje spojení mezi tabulkami přenést na disk pro spojení, která vyžadují spojení tabulek větší, než je velikost agregované paměti
  • Poddotazy uvnitř klauzulí WHERE

Jak se dozvídáme více o požadavcích zákazníků a partnerů, tento seznam se rozšíří.

Závěr

Jak můžete vidět, Impala se od svého beta vydání značně vyvinula a bude se vyvíjet i nadále, protože získáváme více zpětné vazby od uživatelů, zákazníků a partnerů.

Nakonec jsme přesvědčeni, že Impala již umožnila náš celkový cíl umožnit uživatelům ukládat všechna svá data v nativních souborových formátech Hadoop a současně s těmito daty spouštět všechny dávky, strojové učení, interaktivní SQL/BI, matematické, vyhledávací a další úlohy. na místě. Odtud už jde jen o to pokračovat v budování na tomto velmi pevném základu s bohatšími funkcemi a vylepšeným výkonem.

Justin Erickson je ředitelem produktového managementu ve společnosti Cloudera.


  1. Porovnání mangoose _id a řetězců

  2. Chyba pole v objektu 'cíl' na poli '':zamítnutá hodnota []; kódy [typeMismatch.target.,typeMismatch.,typeMismatch.java.util.Date,typeMismatch]

  3. Jak bezpečně načíst hash a převést hodnotu na logickou hodnotu, pokud existuje

  4. MongoDB:Jedinečný klíč ve vloženém dokumentu