Úvod do dolování dat

Poznámka:Tento článek byl původně navržen v roce 2015, ale v roce 2019 byl aktualizován, aby odrážel novou integraci mezi IRI Voracity a Knime (pro Konstanz Information Miner), nyní nejvýkonnější dostupnou platformou pro dolování dat s otevřeným zdrojovým kódem.

Data mining je věda o odvozování znalostí z dat, obvykle velkých souborů dat, ve kterých je třeba objevit smysluplné informace, trendy a další užitečné poznatky. Dolování dat využívá strojové učení a statistické metody k extrakci užitečných „nugetů“ informací z toho, co by jinak bylo velmi zastrašující.

Data mining zahrnuje několik počítačových a matematických disciplín. Nejde ani tak o jednotný proces, jako spíše o zastřešující termín pro soubor akcí. Čtyři široké úkoly, které se provádějí při těžbě, zahrnují: analýzu průzkumných dat (EDA), deskriptivní modelování, prediktivní modelování a zjišťování vzorů.

EDA používá konvenční metody statistické vizualizace nebo nekonvenční grafické metody, aby zjistila, zda lze v datech najít něco zajímavého.

V deskriptivním modelování jsou data předána rutině a poskytují slovesa (generátory dat) nebo přídavná jména (popisy dat), která stojí za tvorbou dat. To zahrnuje metody, které spojují data s rozdělením pravděpodobnosti, shlukováním a modelováním závislostí.

Prediktivní modelování využívá regresní a klasifikační metody k nastavení standardu pro predikci budoucích neznámých datových bodů. Regrese je čistě matematická analýza, která přizpůsobuje rovnici souboru dat, aby bylo možné předpovědět další hodnotu. Prediktivní modelování se také může opírat o pravidla vzorů a trendy vztahů (nebo dokonce specificky identifikovaných příčin a následků), které byly objeveny pomocí metody logické analýzy dat (LAD).

Zjišťování vzorů pomocí LAD klasifikuje nová pozorování podle dřívějších klasifikací pozorování a využívá optimalizační, kombinatorické a booleovské funkce ke zlepšení přesnosti analýzy.

Z větší části mohou tyto metody pouze indikovat, které datové položky spolu souvisejí, nikoli však důvody, proč nebo jak spolu souvisí. Je možné vysvětlit, co charakterizuje jednu třídu/shluk od jiné, nalezením těchto pravidel nebo vzorů a témata jsou uvedena různými způsoby v závislosti na samotných datech.

Aplikace pro dolování dat mohou sahat od obchodního marketingu po medicínu, od odhalování podvodů v bankovnictví a pojišťovnictví po astronomii, od řízení lidských zdrojů po průmysl katalogového marketingu a tak dále. Lékařské profese ji shledaly užitečnou pro rozlišení mezi atributy lidí s různou mírou progrese onemocnění. Maloobchodní prodejny nyní využívají data mining, aby lépe porozuměly spotřebitelským zvyklostem utrácení, zaznamenaly, které položky jsou nakupovány společně a jejich vztah, a také nejlepší způsob, jak propagovat své zákazníky. A velká část podnikového světa se nyní spoléhá na dolování dat při výpočtu, provádění a zdůvodňování hlavních obchodních rozhodnutí.

Jak však nyní každý ví z nedávného intenzivního mediálního pokrytí skandálu telefonních záznamů NSA-Verizon, dolování dat může být také extrémně kontroverzní. Pro případ, že jste bydleli pod skálou, zde je stručná synopse:

června 2013 zveřejnil britský deník The Guardian exkluzivní zprávu, že miliony záznamů zákazníků od společnosti Verizon, jednoho z největších poskytovatelů telekomunikačních služeb v USA, byly shromážděny americkým Národním bezpečnostním úřadem v reakci na tajný příkaz. od amerického soudu Foreign Intelligence Surveillance Court. Služba Business Network Services společnosti Verizon byla nucena předat všechna telefonní metadata vytvořená poskytovatelem mobilních služeb v USA i v zahraničí. V důsledku toho pak vybuchla dvoustranná a všeobecná kritika Obamovy administrativy ze strany skupin prosazujících občanská práva a zpravodajských médií, která tvrdila, že prezident zneužívá výkonnou moc. V době psaní tohoto článku není v dohledu žádné řešení tohoto incidentu. Nepochybně však zůstane ukázkovým příkladem toho, jak může být dolování dat někdy vnímáno v negativním světle, zejména s ohledem na ochranu soukromí a širokou veřejnost.

Při práci s velkými objemy statických nebo dynamických dat se zcela jistě vyskytnou problémy s výkonem a I/O souvisejícími s výkonem. U databází obsahujících terabajty a exabajty dat může procházení dat zabrat spoustu času a těžební algoritmy musí běžet velmi efektivně. Mezi další potíže patří přetížení a hlučnost dat.

Nadměrná montáž obvykle znamená, že není k dispozici dostatek kvalitních dat. Datový model (v tomto případě globální popis dat) se stává příliš složitým, protože má příliš mnoho parametrů vzhledem k počtu pozorování. To zveličuje drobné výkyvy v datech, čímž je ohrožena spolehlivost modelu jako základu pro předpovědi.

Šumová data na druhou stranu odkazují na příliš mnoho nesprávného druhu dat. Nesmyslná, chybná, nestrukturovaná (nečitelná) nebo jinak poškozená data zvyšují požadavky na úložiště a/nebo vyžadují odstranění statistické analýzy dříve, než může narušit přesnost dolování dat. Dobré algoritmy pro dolování dat berou v úvahu hlučná data.

Dolování dat je jediným krokem v rozsáhlejším procesu známém jako zjišťování znalostí v databázích (KDD). KDD nejprve začíná přípravou dat: výběr, předběžné zpracování a transformace dat, kde si určíte, co chcete studovat, a nastavíte to tak, aby to bylo možné těžit. To znamená reprezentovat data jako matici m-n a s numerickou reprezentací prvku každého datového vektoru. Dále ty moje. A nakonec můžete použít starý noggin k interpretaci a analýze těchto informací. Pak, pokud skryté vzory a trendy stále nejsou dostatečně jasné, musíte se ponořit trochu hlouběji.

Úlohou IRI v dolování dat a procesu KDD je připravit a restrukturalizovat velká data pro analýzu prostřednictvím několika vysoce výkonných funkcí transformace dat. Konkrétně balíček pro manipulaci s daty IRI CoSort dokáže rychle filtrovat, manipulovat a přeformátovat data tak, aby je bylo možné zpracovat algoritmy pro dolování dat, jako jsou tyto softwarové sady pro dolování dat. CoSort je také výchozím motorem pro zpracování dat v platformě pro správu dat IRI Voracity, navržený pro širokou škálu datových profilů, přípravy a sporů.

Pro ty, kteří pracují s CoSort v grafickém uživatelském rozhraní IRI Workbench, je BIRT bezplatný zásuvný modul Eclipse s grafickými funkcemi vytváření sestav a business intelligence, které zahrnují některé analytické a dolovací funkce. CoSort i BIRT Analytics používají Eclipse IDE. Díky podpoře datového ovladače Open Data Access (ODA) začleněné do CoSortu je integrace datového toku mezi dvěma zásuvnými moduly také bezproblémová a umožňuje rychlejší analýzy typu what-if.

Pro ty, kteří pracují s Voracity v roce 2019 a dále, doporučujeme nainstalovat základního poskytovatele pro bezplatnou platformu Knime Analytics do IRI Workbench. Ve stejné skleněné tabuli Eclipse může zdrojový (poskytovatelský) uzel Voracity pro Knime předat nezpracovaná data připravená Voracity v paměti uzlům Knime pro aplikace vyžadující statistickou a prediktivní analýzu, dolování dat a strojové/hluboké učení, neuronové sítě a umělá inteligence.

Mezi přispěvateli tohoto článku patří Roby Poteau a David Friedland