V prosinci 2012, kdy byla Cloudera Impala stále ve fázi beta, jsme poskytli plán plánovaných funkcí v produkční verzi. Ve stejném duchu, aby byli uživatelé, zákazníci a nadšenci Impala dobře informováni, tento příspěvek poskytuje aktualizovaný plán pro nadcházející verze koncem tohoto roku a začátkem roku 2014.
Nejprve však poděkování:Od prvního vydání beta jsme obdrželi obrovské množství zpětné vazby a ověření ohledně Impala – hojné co do kvality i kvantity. Nejméně jedna osoba z přibližně 4 500 unikátních organizací po celém světě si k dnešnímu dni stáhla binární soubor Impala. A i po pouhých několika měsících GA jsme viděli, jak zákazníci Cloudera Enterprise z různých odvětví nasazují Impala 1.x v kritických obchodních prostředích s podporou prostřednictvím předplatného Cloudera RTQ (Real-Time Query) – včetně předních organizací v pojišťovnictví, bankovnictví, maloobchod, zdravotnictví, hry, státní správa, telekomunikace a reklama.
Kromě toho, na základě reakcí ostatních dodavatelů v oblasti správy dat, jen málo pozorovatelů by zpochybnilo názor, že Impala učinila interaktivní SQL dotazy s nízkou latencí pro Hadoop stejně důležitým požadavkem zákazníků jako vysokolatenční, dávkově orientované SQL dotazy. povoleno Apache Hive. To je skvělý vývoj pro uživatele Hadoop všude!
Co bylo dodáno v Impala 1.0/1.1
Začněme vysvědčením o dříve publikovaném plánu Impala 1.0/1.1. Zde je seznam funkcí seskupený podle stavu doručení:
Doručeno:
| Odloženo na základě zpětné vazby od zákazníků:
|
Kromě toho, díky přidání modulu Apache Sentry (inkubace), Impala 1.1 a novější nyní také poskytují granulární autorizaci založenou na rolích, což zajišťuje, že správní uživatelé a aplikace mají přístup ke správným datům. (S nedávným příspěvkem Sentry k inkubátoru Apache a HiveServer2 k Hive od Cloudery má Hive 0.11 a novější tuto funkci také.)
Udělalo se hodně práce, ale práce je ještě hodně. Nyní k vlně Impala 2.0.
Blízký plán
Následující nová funkce Impala bude uvolňována postupně v nejbližších budoucích verzích, počínaje Impala 1.2 na konci roku 2013 a konče Impala 2.0 v první třetině roku 2014. Kromě toho uvidíte další zvýšení výkonu a vylepšení funkcí SQL v každé vydání – s cílem rozšířit výkonnostní náskok Impaly oproti alternativním přístupům SQL-on-Hadoop u starších prodejců relačních databází i prodejců distro Hadoop.
Vezměte prosím na vědomí, že jako vždy v případě cestovních map, časové osy a funkce se vždy mohou změnit. To, co vidíte níže, však zachycuje náš aktuální plán záznamu.
Impala 1.2
- UDF a rozšiřitelnost – umožňuje uživatelům přidávat vlastní funkce; Impala bude podporovat stávající Hive Java UDF a také vysoce výkonné nativní UDF a UDAF
- Automatické obnovení metadat – umožňuje bezproblémovou dostupnost nových tabulek a dat pro dotazy Impala, když jsou přidávány, aniž by bylo nutné provádět ruční obnovení na každém uzlu Impala
- Ukládání do mezipaměti HDFS v paměti – umožňuje přístup k často používaným datům Hadoop rychlostí v paměti
- Optimalizace objednávky připojení na základě nákladů – zbavuje uživatele nutnosti uhodnout správnou objednávku připojení
- Náhled správce zdrojů integrovaného do YARN – umožňuje upřednostňovat pracovní zátěže s jemnější granularitou než izolace na úrovni služeb, která je v současnosti poskytována v Cloudera Manager
Impala 2.0
Níže uvedený seznam zachycuje pouze větší, nejčastěji požadované funkce; není v žádném případě kompletní.
- Analytické funkce okna vyhovující SQL 2003 (agregace OVER PARTITION) – poskytují pokročilejší analytické schopnosti SQL
- Další ověřovací mechanismy – včetně možnosti zadat uživatelské jméno/hesla navíc k již podporované autentizaci Kerberos
- UDTF (uživatelem definované funkce tabulky) – pro pokročilejší uživatelské funkce a rozšiřitelnost
- Vnitrouzlové paralelní agregace a spojení – poskytují ještě rychlejší spojení a agregace navíc ke zvýšení výkonu Impala
- Vnořená data – umožňuje dotazy na složité vnořené struktury včetně map, struktur a polí
- Vylepšený správce zdrojů připravený k výrobě a integrovaný do YARN
- Vylepšení parket – trvalé zvyšování výkonu včetně indexových stránek
- Další datové typy – včetně typu Datum a Desítková
- ORDER BY bez doložek LIMIT
Přes Impala 2.0
Následující seznam funkcí jsou ty, které v současné době očekáváme, že budou přítomny ve verzi 2.1 nebo ve vydání brzy poté:
- Další analytické funkce SQL – ROLLUP, CUBE a GROUPING SET
- Apache HBase CRUD – umožňuje použití Impala pro vkládání a aktualizace do HBase
- Externí spojení pomocí disku – umožňuje spojení mezi tabulkami přenést na disk pro spojení, která vyžadují spojení tabulek větší, než je velikost agregované paměti
- Poddotazy uvnitř klauzulí WHERE
Jak se dozvídáme více o požadavcích zákazníků a partnerů, tento seznam se rozšíří.
Závěr
Jak můžete vidět, Impala se od svého beta vydání značně vyvinula a bude se vyvíjet i nadále, protože získáváme více zpětné vazby od uživatelů, zákazníků a partnerů.
Nakonec jsme přesvědčeni, že Impala již umožnila náš celkový cíl umožnit uživatelům ukládat všechna svá data v nativních souborových formátech Hadoop a současně s těmito daty spouštět všechny dávky, strojové učení, interaktivní SQL/BI, matematické, vyhledávací a další úlohy. na místě. Odtud už jde jen o to pokračovat v budování na tomto velmi pevném základu s bohatšími funkcemi a vylepšeným výkonem.
Justin Erickson je ředitelem produktového managementu ve společnosti Cloudera.