5 běžných chyb, kterým se při odstraňování duplicitních dat vyhnout

Data jsou moc as touto mocí přichází velká zodpovědnost. Jednou z největších překážek v datech je identifikace duplikátů a odstranění duplicit.

Cílem deduplikace dat je eliminovat všechna nadbytečná data ve vaší firmě. Duplikáty se vytvářejí ve všech oblastech vašeho podnikání, jako je například obchodní zástupce, který vkládá nový záznam bez předchozí kontroly databáze, obchodník nahrává seznam potenciálních kupců bez kontroly, zda záznam existuje, a zákazník, který své údaje zadává znovu, protože je zapomněl již máte u sebe účet.

Deduplikace dat zajišťuje řádnou správu dat těchto záznamů, omezení ukládání dat, efektivnější marketingovou komunikaci a lepší prediktivní analýzu. Duplicitní záznamy mohou ve skutečnosti mít obrovský dopad na strojové učení a záznamy datové vědy, protože teoreticky poskytují zákazníkům dvojnásobnou prediktivní schopnost, a proto vytvářejí zkreslení ve výstupech.

S každým skvělým nápadem však přicházejí rizika a v rámci strategie deduplikace, kdy se data většinu času mažou, může docházet k přirozeným chybám.

Inline nebo následné zpracování

Procesy inline deduplikace deduplikují data tak, jak jsou zpracovávána. To znamená, že okamžitě snižuje množství dat, což je skvělé, ale často má problémy s výkonem s množstvím zdrojů potřebných ke spuštění, jako je strategie. Znamená to však, že potřebujete mnohem méně nezpracovaného místa na disku, protože data se ve skutečnosti nikdy neposílají, protože deduplikace se provádí na frontendu.

Je důležité, abyste se ujistili, že máte výpočetní výkon pro inline deduplikaci a že to nemá vliv na výkon. Další chybou je předpokládat, že neexistuje žádný případ duplikátů. Existuje legitimní potřeba mít ve vašem systému duplikáty. Důvody mohou být důvody fakturace, zákaznického servisu, prodeje a marketingu, proto je dobré konzultovat všechna oddělení, která se dat dotknou, před implementací in-line zpracování.

Algoritmy

Deduplikace je jen tak dobrá, jako jsou algoritmy, do kterých je přiváděna, tj. jak se vůbec odhalují duplicitní záznamy? Předpokládejme, že máme v našich systémech 100 kopií souboru, protože každý zaměstnanec měl svou vlastní verzi. Namísto ukládání více kopií vám osvědčená praxe říká, že máte uložit pouze jednu a nechat na ni poukazovat všichni zaměstnanci. Co když jeden ze zaměstnanců provede změnu ve svém vlastním souboru, což znamená, že se mírně liší od ostatních? Riskujete ztrátu dat. Je důležité zajistit, aby všechna pravidla, která nastavíte, dávala smysl a nezačali omylem odstraňovat jedinečné datové sady.

Existuje několik běžných algoritmů používaných pro deduplikaci dat, jako je SHA-1 nebo MD5 a stromové struktury binárního vyhledávání, které stojí za to si prohlédnout, abyste našli to, co je pro vás nejvhodnější.

Zatímco odstranění duplicitních datových souborů ve výše uvedeném příkladu může být snadno řešeno datovými vědci. U evidence tržeb a marketingu je to o něco složitější. Vezměte v úvahu, že různé podniky definují duplikáty odlišně, není to již úkol pro datové vědce, ale spíše pro vedoucí různých oddělení. Proto je prvním krokem určit, co tvoří duplikát. Vezměme si například maloobchodního giganta, jako je Walmart. Pro distribuční společnost by bylo každé místo Walmartu považováno za jedinečný záznam, avšak pro softwarovou společnost prodávající Walmart by všechna místa považovala za duplikáty, protože chtějí prodávat pouze do ústředí. Totéž lze říci o prodeji do P&G, kde některé podniky prodávají jednotlivě každé značce. Proto je chtějí všechny ponechat oddělené a místo dedupingu k identifikaci různých značek použít propojení rodič/dítě. Před odstraněním duplicit se proto ujistěte, že máte všechna pravidla definovaná, než zjistíte algoritmus, který chcete použít k odstranění duplicitních dat.

Šifrování

S ochranou dat se často stává, že bezpečnostní týmy budou mít data zašifrovaná, jakmile přijdou do podnikání, což znamená, že je nelze odstranit, protože vše je v tomto kontextu jedinečné. Pokud používáte replikační a šifrovací produkty v souladu s deduplikačním softwarem, existuje velmi vysoká pravděpodobnost, že soubory budou replikovány, protože je jednoduše nemůže vybrat jako jedinečné bloky úložiště.

Produkty pro ochranu dat jsou někdy schopny deduplikace, ale je důležité, abyste zvážili, jak se vše integruje dohromady.

Ruční deduplikace

Většina podniků se pokusí odstranit duplicitní data z databáze ručně, což zabere obrovské množství zdrojů a času s velkým rizikem lidské chyby. Kromě toho je s rozsáhlými datovými soubory prakticky nemožné, aby manuální procesy zaznamenaly všechno.

Co když si například John Smith dnes na vašem webu koupí boty? Zítra se vrátí, ale zaregistruje se jako J Smith, protože zapomněl své přihlašovací údaje. Příští týden se znovu zaregistruje, ale s jinou e-mailovou adresou. Zmínil jsem zde pouze tři datová pole, ale už to začíná být komplikované, takže si představte, že když máte 200 polí zákaznických dat, jak zajistíte, že budou jedinečná?

Pokud jde o ruční proces, je důležité buď sestavit úplné algoritmy sami, nebo si pořídit nástroje pro čištění dat, které to udělá za vás, čímž ušetříte všechen ten čas a úsilí.

Zálohy

Deduplikace se může pokazit! Před odstraněním duplikátů je důležité, aby bylo vše zálohováno a vy mohli rychle vyřešit případné problémy. Vraťme se k našemu dřívějšímu příkladu, co když zjistíme, že John Smith a J Smith jsou ve skutečnosti různí lidé a potřebují získat účet zpět? Potřebujete proces, který to dokáže, což je nyní zákonný požadavek v EU (GDPR).

Strategie deduplikace dat je důležitá, protože podniky rozšiřují svou digitální stopu. S tolika komunikačními kanály má pouze jeden duplicitní záznam schopnost vytvářet zkreslení a potenciálně vést k nesprávným rozhodnutím. To znamená, že to musí být provedeno správně, aby se předešlo následkům odstranění nesprávných záznamů nebo nesprávného podávání algoritmů a snížení rychlosti podnikání. Zajistěte, aby byla deduplikace dat plně formována ve vaší strategii správy dat.