sql >> Databáze >  >> NoSQL >> HBase

Data Warehousing nové generace v Santander UK

Včasná data jsou pro podniky ve věku velkých dat klíčová:Tento blogový příspěvek nastiňuje, jak Santander UK využívá nejnovější technologie Cloudera a vynikající možnosti vývoje softwaru k vytvoření nové generace datových skladů a streamingové analýzy pro podporu inteligence, která může zlepšit vztahy se zákazníky a řiďte se mantrou „chceme pomáhat lidem růst a prosperovat.

Velká data společnosti Santander UK začala zhruba před čtyřmi lety. Byli prvními osvojiteli nové technologie streamování dat, jako je Apache Kafka, a měli ambice změnit zákaznickou zkušenost s využitím dat v reálném čase a analýzy v aplikacích pro mobilní uživatele.

Od té doby společnost Santander UK posílila jak půdorys, tak schopnost inovovat pomocí technologie velkých dat a rychle se vyvíjela. Potřeba analýzy streamování ve velkém měřítku vzrostla a stala se realitou. Dnes v Santander UK platformu Big Data, Machine Learning a Analytics společnosti Cloudera doplňuje integrované vysoce kvalitní a škálovatelné poskytování událostí Platform-as-a-Service (PaaS) prostřednictvím Apache Kafka.

Další technologickou složkou, která je ústředním bodem nové generace datového skladu Santander UK, je použití Apache Kudu pro rychlou analýzu rychlých dat. V kombinaci s aspekty návrhové metodologie Data Vault 2.0 usnadňuje rychlý příjem ze stovek datových toků Apache Kafka; jak odlehčení pracovní zátěže ze stávajících starších systémů, tak poskytnutí možnosti klást „právě tady, právě teď“ otázky týkající se chování zákazníků a aktuálního stavu banky.

Rychlost uvádění na trh

Rychlé datové toky lze přesouvat online s minimálním úsilím díky inovativní nové platformě v Santander UK, která integruje starší systémy s novým datovým trezorem prostřednictvím Apache Kafka. Vzhledem k čisté struktuře integrovaných dat je nový zdroj toku událostí pro naplnění datového trezoru Apache Kudu z velké části řízen konfigurací – přizpůsobuje datové události struktuře Hub, Satellite a Link metodologie Data Vault 2.0. To umožňuje schématu reagovat na změny v podnikání nebo nové chápání toho, jak by měla být data přizpůsobena.

Santander UK může ovlivnit transformace dat škálováním platformy pro poskytování elastických událostí, která je založena na Scala Akka a Apache Kafka, což umožňuje rychlé a škálovatelné obohacování dat v reálném čase. To umožňuje rychlejší a včasnější data, rychlejší rozhodování a vyšší rychlost uvádění případů použití na trh díky znovu použitelné platformě a architektuře.

Data Science a Rapid Prototyping of Data Products

Nakonec existuje mnoho potenciálních spotřebitelů tohoto zdroje datových proudů; díky integraci Cloudera Data Science Workbench do datového trezoru však již byly získány zajímavé poznatky. Ty poskytují komplexní zkušenosti Data Science pro rostoucí tým Data Science a také využívají – typicky v Santander UK inovativním způsobem – potenciál k rychlému prototypování nápadů a vytváření nových datových produktů před řešením náročných technických a architektonických výzev. Postavte rychlý prototyp a pak, pokud to přinese hodnotu, vyviňte z něj prvotřídní produkt.

Rychlá integrace:Model příspěvku

V duchu inovací a agility, které tým Santander UK Data Innovation proměnil ve skutečnost, vytvořili koncept Contribution Model. Protože klastr je multitenant s různými obchodními jednotkami, které získávají, čistí a vytvářejí nové datové sady; pokud to zbytek firmy považuje za užitečné, lze k integraci těchto obecně užitečných dat do jádra schématu Data Vault použít tabulky odkazů ve stylu Data Vault. Tímto způsobem může tým zvýšit hodnotu datových produktů prostřednictvím rychlého generování nových kombinací datových sad, s sledovatelnou linií pomocí Cloudera Navigator pro správu a zabezpečení pomocí Apache Sentry pro řízení přístupu. Pokud jsou data obchodní jednotky považována za užitečná pro ostatní, jsou propojena s jádrem a sdílena v souladu se zásadami správy a řízení.


Model příspěvku nám umožňuje využívat čisté datové sady, které jsou nezávisle vytvářeny různými obchodními jednotkami a produktovými týmy. Pokud jsou tato data cenná pro zbytek podniku, máme možnost je přenést do Datového trezoru jako prvotřídní občan prostřednictvím využití tabulek odkazů. Chtěli jsme replikovat přístup komunity Apache k softwaru s otevřeným zdrojovým kódem pro datové systémy v naší organizaci, abychom zlepšili inovace prostřednictvím spolupráce.

    – Nicolette Bullivant – vedoucí datového inženýrství, Santander UK

Multi-Destination:Jeden stream, který bude vládnout všem

Nezpracované toky událostí, které jsou generovány ze starších systémů, jsou považovány za kanonické a jsou obecně vyžadovány ostatními zúčastněnými stranami, které používají cluster. Tým Santander UK Data Innovation Team přijal zásadu, která zajišťuje, že tyto toky událostí budou dostupné pro využití různými případy použití a technologiemi; tedy kanonický tok událostí může být redistribuován do různých míst určení; buď souborový systém HDFS, Apache HBase nebo Apache Kudu. To pomáhá vytvořit jedinou verzi pravdy pro všechny zúčastněné strany a zároveň se vyhnout zpětnému tlaku na starší systémy.

Závěr

Stručně řečeno, Santander UK inovuje přímo na stacku Cloudera, spojuje streamovaná data, pokročilé principy a rámce softwarového inženýrství a moderní principy návrhu datových skladů, aby generoval přehled v reálném čase s cílem zlepšit zákaznickou zkušenost a finanční pohodu zákazníků. Tato inovace byla nedávno uznána, když porota třetí strany zvolila Santandera jako finalistu Data Impact Award.

Nicolette Bullivant je vedoucí datového inženýrství ve společnosti Santander UK.
Rob Siwicki je senior Solutions Architect pro profesionální služby Cloudera, EMEA.


  1. Jak znovu připojit klienta redis po restartu/škálování serveru redis

  2. Připojení aplikace Heroku ke cloudové službě Atlas MongoDB

  3. Jak vložit dokument do mongodb pomocí mongoose a získat vygenerované id?

  4. Nainstalujte Memcached na Ubuntu 16.04