Klasifikace dat v IRI Workbench

Uživatelé nástrojů pro maskování PII, jako jsou FieldShield, DarkShield a CellShield EE v platformě IRI Data Protector Suite nebo Voracity , mohou katalogizovat a vyhledávat svá data – a aplikovat transformaci dat a funkce ochrany jako pravidla – pomocí vestavěných dat klasifikace infrastruktury v jejich společném frontendovém IDE, IRI Workbench, postaveném na Eclipse™.

Zařízení pro zjišťování (vyhledávání) dat z více zdrojů v IRI Workbench mohou využívat datové třídy, které jste definovali, nebo vám mohou pomoci přiřadit datové třídy nebo skupiny datových tříd k vašim datům na základě výsledků vyhledávání, obchodních pravidel a/nebo doménové ontologie.

Svou knihovnu tříd dat můžete použít v pravidlech pro opakovaně použitelná pole (např. maskování dat). A tato pravidla můžete přiřadit také při automatické klasifikaci dat.

Tyto funkce poskytují datovým architektům a týmům správy dat pohodlí, konzistenci a dodržování předpisů. V tomto článku naleznete úplný příklad použití datových tříd k konzistentnímu vyhledávání a maskování dat napříč více tabulkami ve schématech RDB.

Tento článek popisuje, jak můžete definovat tyto třídy. Existují související články o validátorech datových tříd, které lze použít k rozlišení a ověření dat na základě vyhledávání vzorů.

Několik dalších článků na blogu IRI se zabývá aplikací datových tříd v různých kontextech (většinou maskování dat). Úplný rejstřík těchto článků naleznete v této části stránky pro samostudium softwaru IRI.

Vytvořte datové třídy

Klasifikace začíná nastavením datových tříd v Předvolbách Workbench obrazovka, která vám umožňuje používat třídy globálně ve více projektech ve vašem pracovním prostoru. Workbench má některé třídy předinstalované, včetně tříd FIRST_NAME, LAST_NAME a PIN_US použitých v tomto příkladu.

Datové třídy fungují tak, že se (1) název třídy shoduje s názvem pole, (2) vzor s daty v poli nebo (3) nastaví obsah souboru proti datům v poli. První položka je provedena automaticky v procesu klasifikace, pokud je zvolena tato možnost. Pro každou třídu můžete přidat tolik vzorů a nastavit přiřazování souborů, kolik potřebujete, abyste vrátili zamýšlené výsledky.

Zadání regulárního výrazu jako názvu datové třídy je dalším způsobem, jak porovnat název sloupce. Například může existovat sloupec s názvem LNAME nebo LASTNAME. Mohu tedy použít L(AST)?[_-]?NAME (podtržítko a pomlčka v závorkách) pro zachycení několika variant PŘÍJMENÍ.

Můžete také deaktivovat své datové třídy a skupiny. Pokud máte mnoho tříd, ale chcete odfiltrovat položky, které se ve vašem konkrétním projektu nepoužívají, můžete je deaktivovat. To vám umožní ponechat si jejich kopii, ale nezaplnit rozbalovací seznam, který tyto třídy používá.

Skupiny datových tříd

Můžete mít také skupiny datových tříd. Například zahrnutá skupina „NAMES“ obsahuje datové třídy FIRST_NAME, LAST_NAME a FULL_NAME. Pokud chcete pravidlo použít na více tříd, můžete místo výběru datových tříd jednotlivě použít skupinu.

V tomto příkladu jsem odstranil podtržítko z datové třídy FIRST_NAME, abych demonstroval možnost klasifikace shody názvu.

Průvodce zdrojem klasifikace dat

Po přidání párů do potřebných tříd můžete spustit Průvodce zdrojem klasifikace dat. Průvodce přijímá následující datové formáty:CSV, Delimited, LDIF, ODBC nebo XML. Tento průvodce poskytuje prostředky pro výběr zdrojů pro vaši knihovnu datových tříd pro pozdější klasifikaci.

Na stránce nastavení začněte výběrem umístění vaší nové „iriLibrary.dataclass “, který je výstupem tohoto průvodce. Název souboru je pouze pro čtení, protože v každém projektu může být pouze jeden z těchto typů souborů. Můžete také zaškrtnout políčko, pokud jsou všechny vaše zdroje tabulkami v profilu připojení.

Výběrem tohoto pole se otevře vstupní stránka podobná té níže, kde si můžete vybrat tabulky, které mají být zahrnuty:

Pokud zaškrtávací políčko není zaškrtnuté, můžete přidávat soubory nebo zdroje ODBC na stejné vstupní obrazovce. Na tento typ vstupní stránky budete také muset přidat metadata pro každý zdroj. V tomto příkladu jsem zahrnul soubor CSV a dvě tabulky Oracle.

Pokud potřebujete vyhledávat a klasifikovat data v rámci jednoho nebo více schémat úplných databází najednou, použijte průvodce hledáním vzoru schématu a vyhledáváním vzoru schématu k přidružení datové třídy.

Klepnutím na tlačítko Dokončit vytvoříte knihovnu tříd dat se zahrnutými vybranými zdroji. Editor formuláře datové třídy, který se otevře, vám umožní klasifikovat data v těchto zdrojích.

Klasifikace dat ve vybraných zdrojích

Proces klasifikace zahájíte kliknutím na jeden ze zdrojů dat, aby se zobrazily podrobnosti o tomto zdroji. V horní části obrazovky je rozbalitelná část, která zobrazuje podrobnosti o souboru nebo tabulce.

Oddíl klasifikace začíná zaškrtávacím políčkem, které zahrnuje shodu přes název pole s názvem datové třídy. Mám například datovou třídu nazvanou FIRSTNAME a pole nazvané FIRSTNAME (při hledání se nerozlišují velká a malá písmena).

V tomto případě klasifikační proces vybere tuto datovou třídu pro dané pole bez čtení datového obsahu.

V další části se zobrazí tabulka obsahující názvy polí se zaškrtávacími políčky, sloupec pro datovou třídu a sloupec pro odpovídající výsledky. Spodní tabulka je náhled dat ve zdroji. Potřebné datové třídy by měly být vytvořeny před použitím tohoto editoru formulářů, ale můžete je přidat nebo upravit zde.

Datovou třídu můžete vybrat ručně kliknutím na rozevírací seznam ve sloupci datové třídy pole, které chcete klasifikovat. Můžete také kliknout na Automaticky klasifikovat a vybrat pole, která chcete klasifikovat. Kliknutím na OK spustíte proces automatické klasifikace, který může trvat dlouho v závislosti na množství dat, které máte ve svém zdroji.

Proces může běžet na pozadí, pokud tuto možnost vyberete ve standardním dialogovém okně Eclipse, které se zobrazí. Kromě toho můžete stav procesu zobrazit v zobrazení průběhu.

Po dokončení se v knihovně pro vybraná pole vytvoří datová třída a mapa datových tříd. V tomto příkladu proces klasifikace nalezl shodu 87 % v poli SSN, 11 % v poli PŘÍJMENÍ a shodu jména v poli FIRSTNAME. Procenta označují množství shodných dat ve vašem zdroji prostřednictvím párovačů pro danou datovou třídu.

Pokud se v odpovídajícím sloupci zobrazí „název“, pak byla datová třída spárována na základě názvu. Pokud jste datovou třídu vybrali ručně, zobrazí se v odpovídajícím sloupci „uživatel“.

Konečný obsah knihovny je zobrazen níže. Stejně jako můžete vidět podrobnosti o zdrojích, můžete také kliknout na datové třídy a mapy a zobrazit jejich podrobnosti.

Mapy datových tříd používají odkazy na datové třídy a pole, což je důvod, proč knihovna ukládá kromě mapy samotné také zdroje a datové třídy. Odstraněním zdroje nebo datové třídy se také odstraní jakákoli přidružená mapa datových tříd, která odkazuje na smazanou položku.

Po kliknutí na tlačítko Odebrat se zobrazí upozornění, které vám to připomene. Proces lze opakovat na ostatních zahrnutých zdrojích a kdykoli lze přidat další zdroje.

Výsledky klasifikace této knihovny lze nyní použít k aplikaci pravidel polí na tyto zdroje dat. Proces je vysvětlen v mém dalším článku o aplikaci pravidel polí pomocí klasifikace.