Co bude dál pro Impala po vydání 1.1

V prosinci 2012, kdy byla Cloudera Impala stále ve fázi beta, jsme poskytli plán plánovaných funkcí v produkční verzi. Ve stejném duchu, aby byli uživatelé, zákazníci a nadšenci Impala dobře informováni, tento příspěvek poskytuje aktualizovaný plán pro nadcházející verze koncem tohoto roku a začátkem roku 2014.

Nejprve však poděkování:Od prvního vydání beta jsme obdrželi obrovské množství zpětné vazby a ověření ohledně Impala – hojné co do kvality i kvantity. Nejméně jedna osoba z přibližně 4 500 unikátních organizací po celém světě si k dnešnímu dni stáhla binární soubor Impala. A i po pouhých několika měsících GA jsme viděli, jak zákazníci Cloudera Enterprise z různých odvětví nasazují Impala 1.x v kritických obchodních prostředích s podporou prostřednictvím předplatného Cloudera RTQ (Real-Time Query) – včetně předních organizací v pojišťovnictví, bankovnictví, maloobchod, zdravotnictví, hry, státní správa, telekomunikace a reklama.

Kromě toho, na základě reakcí ostatních dodavatelů v oblasti správy dat, jen málo pozorovatelů by zpochybnilo názor, že Impala učinila interaktivní SQL dotazy s nízkou latencí pro Hadoop stejně důležitým požadavkem zákazníků jako vysokolatenční, dávkově orientované SQL dotazy. povoleno Apache Hive. To je skvělý vývoj pro uživatele Hadoop všude!

Co bylo dodáno v Impala 1.0/1.1

Začněme vysvědčením o dříve publikovaném plánu Impala 1.0/1.1. Zde je seznam funkcí seskupený podle stavu doručení:

Doručeno:

Podpora pro formát Parquet, formát souboru Apache Avro a textové soubory komprimované LZO
Podpora stejných platforem 64bitových OS jako u CDH
Ovladač JDBC
Podpora DDL
Rychlejší, větší a paměťově úspornější spojení
Rychlejší, větší a paměťově efektivnější agregace
Více optimalizací výkonu SQL

Odloženo na základě zpětné vazby od zákazníků:

Manipulace s opozdilci
Automatická aktualizace metadat

Kromě toho, díky přidání modulu Apache Sentry (inkubace), Impala 1.1 a novější nyní také poskytují granulární autorizaci založenou na rolích, což zajišťuje, že správní uživatelé a aplikace mají přístup ke správným datům. (S nedávným příspěvkem Sentry k inkubátoru Apache a HiveServer2 k Hive od Cloudery má Hive 0.11 a novější tuto funkci také.)

Udělalo se hodně práce, ale práce je ještě hodně. Nyní k vlně Impala 2.0.

Blízký plán

Následující nová funkce Impala bude uvolňována postupně v nejbližších budoucích verzích, počínaje Impala 1.2 na konci roku 2013 a konče Impala 2.0 v první třetině roku 2014. Kromě toho uvidíte další zvýšení výkonu a vylepšení funkcí SQL v každé vydání – s cílem rozšířit výkonnostní náskok Impaly oproti alternativním přístupům SQL-on-Hadoop u starších prodejců relačních databází i prodejců distro Hadoop.

Vezměte prosím na vědomí, že jako vždy v případě cestovních map, časové osy a funkce se vždy mohou změnit. To, co vidíte níže, však zachycuje náš aktuální plán záznamu.

Impala 1.2

UDF a rozšiřitelnost – umožňuje uživatelům přidávat vlastní funkce; Impala bude podporovat stávající Hive Java UDF a také vysoce výkonné nativní UDF a UDAF
Automatické obnovení metadat – umožňuje bezproblémovou dostupnost nových tabulek a dat pro dotazy Impala, když jsou přidávány, aniž by bylo nutné provádět ruční obnovení na každém uzlu Impala
Ukládání do mezipaměti HDFS v paměti – umožňuje přístup k často používaným datům Hadoop rychlostí v paměti
Optimalizace objednávky připojení na základě nákladů – zbavuje uživatele nutnosti uhodnout správnou objednávku připojení
Náhled správce zdrojů integrovaného do YARN – umožňuje upřednostňovat pracovní zátěže s jemnější granularitou než izolace na úrovni služeb, která je v současnosti poskytována v Cloudera Manager

Impala 2.0

Níže uvedený seznam zachycuje pouze větší, nejčastěji požadované funkce; není v žádném případě kompletní.

Analytické funkce okna vyhovující SQL 2003 (agregace OVER PARTITION) – poskytují pokročilejší analytické schopnosti SQL
Další ověřovací mechanismy – včetně možnosti zadat uživatelské jméno/hesla navíc k již podporované autentizaci Kerberos
UDTF (uživatelem definované funkce tabulky) – pro pokročilejší uživatelské funkce a rozšiřitelnost
Vnitrouzlové paralelní agregace a spojení – poskytují ještě rychlejší spojení a agregace navíc ke zvýšení výkonu Impala
Vnořená data – umožňuje dotazy na složité vnořené struktury včetně map, struktur a polí
Vylepšený správce zdrojů připravený k výrobě a integrovaný do YARN
Vylepšení parket – trvalé zvyšování výkonu včetně indexových stránek
Další datové typy – včetně typu Datum a Desítková
ORDER BY bez doložek LIMIT

Přes Impala 2.0

Následující seznam funkcí jsou ty, které v současné době očekáváme, že budou přítomny ve verzi 2.1 nebo ve vydání brzy poté:

Další analytické funkce SQL – ROLLUP, CUBE a GROUPING SET
Apache HBase CRUD – umožňuje použití Impala pro vkládání a aktualizace do HBase
Externí spojení pomocí disku – umožňuje spojení mezi tabulkami přenést na disk pro spojení, která vyžadují spojení tabulek větší, než je velikost agregované paměti
Poddotazy uvnitř klauzulí WHERE

Jak se dozvídáme více o požadavcích zákazníků a partnerů, tento seznam se rozšíří.

Závěr

Jak můžete vidět, Impala se od svého beta vydání značně vyvinula a bude se vyvíjet i nadále, protože získáváme více zpětné vazby od uživatelů, zákazníků a partnerů.

Nakonec jsme přesvědčeni, že Impala již umožnila náš celkový cíl umožnit uživatelům ukládat všechna svá data v nativních souborových formátech Hadoop a současně s těmito daty spouštět všechny dávky, strojové učení, interaktivní SQL/BI, matematické, vyhledávací a další úlohy. na místě. Odtud už jde jen o to pokračovat v budování na tomto velmi pevném základu s bohatšími funkcemi a vylepšeným výkonem.

Justin Erickson je ředitelem produktového managementu ve společnosti Cloudera.