Použití Cloudera Data Engineering k analýze dat programu ochrany výplaty

Program Paycheck Protection Program (PPP) zavádí americká federální vláda, aby poskytla přímou pobídku pro podniky, aby udržely své zaměstnance na výplatní listině, zejména během pandemie Covid-19. PPP pomáhá kvalifikovaným podnikům udržet si pracovní sílu a pomáhá platit související obchodní výdaje. Údaje z webu amerického ministerstva financí ukazují, které společnosti získaly půjčky PPP a kolik pracovních míst zůstalo zachováno. Ministerstvo financí USA schválilo přibližně jeden milion PPP půjček v USA.

Analýza těchto dat představuje tři výzvy. Za prvé, velikost dat je podstatná. Čas potřebný k vytažení, správě, transformaci, načtení a vykazování těchto dat je časově náročný. Za druhé, soubor dat se bude pravděpodobně vyvíjet, což bude vyžadovat další vývojový čas a zdroje. Konečně, ve vícestupňovém procesu, jako je tento, existuje šance, že se věci zlomí. Schopnost rychle určit chyby nebo úzká místa pomůže konzistentně plnit SLA.

Tento blog ilustruje, jak lze Cloudera Data Engineering (CDE) pomocí Apache Spark použít k vytváření sestav založených na datech PPP při řešení každého z výše uvedených problémů.

Cíl

Falešný scénář pro Texas Legislative Budget Board (LBB) je nastaven níže, aby pomohl datovému inženýrovi spravovat a analyzovat data PPP. Primárním cílem tohoto datového inženýra je poskytnout LBB dvě koncové zprávy:

Přehled 1:Rozpis všech měst v Texasu, která si udržela pracovní místa
Přehled 2:Rozdělení typu společnosti, která si udržela pracovní místa

Cloudera Data Engineering (CDE)

Zde může pomoci Cloudera Data Engineering (CDE) běžící na Apache Spark. CDE je jednou ze služeb v Cloudera Data Platform (CDP), která umožňuje datovým inženýrům vytvářet, spravovat a plánovat úlohy Apache Spark a zároveň poskytuje užitečné nástroje pro monitorování výkonu úloh, přístup k souborům protokolů a organizování pracovních postupů prostřednictvím Apache Airflow. Apache Spark je rámec pro zpracování dat, který je schopen rychle spustit rozsáhlé zpracování dat.

Ministerstvo financí USA poskytuje dva různé datové soubory, jeden pro schválené půjčky nad 150 000 $ a jeden pro schválené půjčky pod 150 000 $. Pro vytvoření dvou konečných zpráv pro LBB byly dodrženy tyto kroky (viz obr. 1).

Prvním krokem bylo načtení dvou samostatných datových sad do segmentu S3.
Pro každou datovou sadu byla vytvořena úloha Spark pro získávání a filtrování dat ze segmentu S3.
Tyto dvě úlohy Spark transformovaly a načetly čistá data do datového skladu Hive k načtení.
Byla vytvořena třetí úloha Spark pro zpracování dat z datového skladu Hive za účelem vytvoření dvou sestav.

Jakmile byly úlohy dokončeny, CDE poskytlo grafické znázornění různých fází v rámci každé úlohy Spark (viz obr. 2). To umožnilo datovému inženýrovi snadno zjistit, které části úlohy potenciálně zabírají nejvíce času, což jim umožnilo snadno upřesnit a vylepšit kód tak, aby co nejlépe vyhovoval zákaznickým SLA.

Obr. 1:Cesta dat k vytvoření dvou konečných zpráv.

Obr. 2:CDE grafické znázornění různých fází Spark.

Výsledky

Primární cíl vytvořit dvě závěrečné zprávy z evidence milionu schválených žadatelů byl splněn. Grafické shrnutí první zprávy (viz obr. 3) ukazuje 10 nejlepších vzorků počtu udržených pracovních míst na město v Texasu a druhá zpráva (viz obr. 4) ukazuje 5 nejlepších vzorků počtu udržených pracovních míst podle typu společnosti. S těmito zprávami může například Texas Legislative Budget Board odvodit, že města s nejmenší mírou udržení pracovních míst na hlavu mohou potřebovat zdroje ke snížení jakéhokoli ekonomického dopadu.

Obr. 3:Top 10 měst, která si udržela nejvíce pracovních míst, State of Texas, 2020

Obr. 4:Top 5 typů společností, které si udržely nejvíce pracovních míst, State of Texas, 2020

Další kroky

Chcete-li to vše vidět v akci, klikněte na níže uvedené odkazy na několik různých zdrojů představujících proces, který byl vytvořen.

Video – Pokud chcete vidět a slyšet, jak to bylo postaveno, podívejte se na video pod odkazem.
Výukové programy – Pokud to chcete udělat svým vlastním tempem, prohlédněte si podrobný návod se snímky obrazovky a pokyny po řádcích, jak to nastavit a spustit.
Meetup – Pokud si chcete promluvit přímo s odborníky z Cloudera, připojte se prosím k virtuálnímu setkání a podívejte se na prezentaci živého přenosu. Na konci bude čas na přímé otázky a odpovědi.
Stránka uživatelů CDP – Chcete-li se dozvědět o dalších zdrojích CDP vytvořených pro uživatele, včetně dalších videí, výukových programů, blogů a událostí, klikněte na odkaz.