sql >> Databáze >  >> RDS >> Database

Profilování dat:Zjišťování podrobností o datech

Profilování dat neboli zjišťování dat se týká procesu získávání informací z různých zdrojů dat a popisných statistik o nich. Účelem profilování dat je lépe porozumět obsahu dat a také jejich struktuře, vztahům a aktuální úrovni přesnosti a integrity.

Datové profilování může odhalit chyby v metadatech (data o datech) nebo nepravdivé závěry kolem nich. Odhalení těchto problémů včas pomáhá zlepšit kvalitu zdrojových dat před jejich integrací nebo uložením do datového skladu. Pochopení atributů dat v databázové tabulce nebo extrahovaném souboru a kontrola datových hodnot pomáhá ověřit, zda obsah dat skutečně odpovídá definici metadat. Zobrazení dat a metadat také pomáhá identifikovat, které položky jsou citlivé nebo obsahují osobní údaje (PII), takže určité sloupce mohou být označeny jako ochranná opatření. Datové profilování tak zjišťuje charakteristiky zdrojových dat nezbytné pro identifikaci, použití a linii dat v integraci, zabezpečení, reportingu a dalších procesech, které následují.

Ačkoli se shromážděná data mohou často zdát neškodná nebo neužitečná, zejména pokud jsou shromážděna z více zdrojů, mějte na paměti, že všechna data mohou být užitečná se správnou aplikací nebo algoritmem. Profilování dat je tedy také prvním krokem při určování této užitečnosti (lepším porozuměním samotným datům).

Vzhledem k tomu, že mnoho firem v konečném důsledku spoléhá na zdroje nezpracovaných dat, aby získaly přehled o věcech, jako jsou skladové zásoby produktů, demografie klientů, nákupní zvyklosti a projekce prodeje, schopnost společnosti těžit konkurenceschopně ze stále se zvyšujících objemů dat může být přímo úměrná její kapacitě využívat tato data. aktiva. Získání/ztráta zákazníků a úspěch/neúspěch v podnikání lze velmi dobře určit podle konkrétních znalostí, které organizace shromážděná data předávají. Identifikace správných dat, stanovení jejich užitečnosti na správné úrovni a určení, jak zvládnout anomálie – jsou tedy zásadní při navrhování operací datových skladů a aplikací business intelligence.

Podle Douga Vuceviče a Wayna Yaddowa, autorů Testing the Data Warehouse Practicum, „...účelem datového profilování je jak ověřit metadata, když jsou dostupná, tak objevit metadata, když nejsou. Výsledek analýzy se používá jak strategicky – k určení vhodnosti kandidátských zdrojových systémů a poskytne základ pro včasné rozhodnutí „go/no-go“, ale takticky, k identifikaci problémů pro pozdější návrh řešení a ke splnění očekávání sponzorů.

Datové úřady doporučují provádět datové profilování náhodně a opakovaně na omezeném množství dat, místo toho, abyste se pokoušeli řešit velké a složité objemy najednou. Tímto způsobem mohou být objevy určujícími faktory pro to, co by se mělo dále profilovat. Identifikace datových pravidel, omezení a předpokladů zajišťuje integritu metadat, na kterých se bude provádět budoucí profilování. Vědět, co se předpokládá být v určitých datových souborech a co je ve skutečnosti nemusí tam být to samé. Kdykoli je tedy kvalita nebo vlastnosti nového zdroje neznámé, odborníci doporučují nejprve profilování dat, před jakoukoli integrací do stávajícího systému.

Kroky v procesu profilování dat zahrnují: import všech objektů, vytvoření konfiguračních parametrů, provedení skutečného profilování a analýzu výsledků; žádný z nich není tak snadný, jak zní! Poté lze na základě zjištění implementovat opravy schémat a dat, stejně jako další jemné ladění pro následné zlepšení výkonu profilování dat.

Nástroje pro profilování IRI

V polovině roku 2015 IRI vydala řadu bezplatných databázových, strukturovaných a nestrukturovaných (tmavých) nástrojů pro zjišťování dat ve svém Eclipse GUI, IRI Workbench. Jsou shrnuty na http://www.iri.com/products/workbench/discover-data a odkazují na další články v tomto blogu, které jdou podrobněji.


  1. Jak získat jméno krátkého dne z data v MariaDB

  2. Jak vybrat správnou databázi pro vaši firmu

  3. Jak používat MySQL Rollup

  4. Jak mohu použít uživatelem definovanou proměnnou MySql v .NET MySqlCommand?