sql >> Databáze >  >> NoSQL >> MongoDB

Maskování PII v MongoDB, Cassandře a Elasticsearch pomocí DarkShield:…

Tento článek demonstruje použití IRI DarkShield k identifikaci a nápravě (maskování) osobně identifikovatelných informací (PII) a dalších citlivých dat v databázích MongoDB, Cassandra a Elasticsearch. Ačkoli se tyto kroky zaměřují hlavně na vyhledávání a stínění dat v kolekcích MongoDB, stejné kroky lze použít i pro data v tabulkách Cassandra. Viz také tento článek o Elasticsearch.

Všimněte si, že tento článek představuje čtvrtou metodu, kterou IRI podporuje pro maskování dat v MongoDB, a druhou metodu pro Cassandru. Tyto předchozí a stále podporované metody spoléhají na zjišťování strukturovaných dat a de-identifikaci prostřednictvím IRI FieldShield, zatímco metoda DarkShield podporuje textová data ve strukturovaných nebo nestrukturovaných kolekcích. Ačkoli DarkShield a FieldShield jsou samostatné produkty IRI pro maskování dat, oba jsou součástí platformy pro správu dat IRI Voracity.

Nejnovější přístup využívá některé prvky Klasifikace dat , integrované paradigma katalogizace dat pro definování vyhledávacích metod používaných k nalezení PII nezávisle na zdroji dat. I když tento článek poskytuje malý úvod do klasifikace dat během kroku 1, může být užitečné přečíst si, jak klasifikace dat zapadá do našeho jednotného přístupu k provádění vyhledávání. Další informace o klasifikaci dat v rozhraní IRI Workbench pro DarkShield et al si přečtěte tento článek, než budete pokračovat.

Identifikace a náprava PII pomocí IRI DarkShield zahrnuje 4 obecné kroky:

(Volitelný) krok – Zaregistrujte své zdroje dat

V tomto (volitelném) kroku se registrují zdroje dat pro databázi Mongo, klíčový prostor Cassandra nebo cluster Elasticsearch. To umožňuje zdroje dat znovu použít. V důsledku toho je tento krok volitelný, pokud požadovaný zdroj dat již v registru existuje nebo pokud ho plánujete definovat pomocí průvodce.

Krok 1 – Zadejte parametry vyhledávání

Zde jsou vybrány všechny aspekty vyhledávání. Nejprve se nastaví zdrojová a cílová kolekce/tabulka na základě datového připojení zadaného v registru nebo vytvořeného v průvodci. Poté můžete určit kritéria vyhledávání a nápravy pro svá data pomocí nástroje Search Matchers, jaké druhy informací hledat a jak by měly být tyto informace napraveny. Výsledkem tohoto kroku je .hledání soubor.

Krok 2 – Proveďte vyhledávání

Vyhledávání lze spustit z .search soubor. Výsledkem je .darkdata soubor s poznámkami ke všem identifikovaným PII.

Krok 3 – Náprava (maskování)

Nápravu lze provést z .darkdata soubor. Jakékoli identifikované PII budou opraveny způsobem uvedeným při vytváření vyhledávání.

(Volitelný) krok – Zaregistrujte své zdroje dat

Jako nezbytný krok budete muset zaregistrovat připojení k vašim online datovým zdrojům (a cílům) v registru připojení URL, který se nachází v Předvolby> IRI> Registr připojení URL dialog v IRI Workbench.

Všechna připojení URL, včetně připojovacích řetězců URI pro MongoDB, Cassandra a Elasticsearch lze uložit. To umožňuje, aby byly adresy URL, autentizační pověření a jakékoli další parametry uloženy a uloženy v IRI Workbench pro budoucí použití.

Krok 1 – Zadání parametrů vyhledávání (Vytvoření souboru .Search)

V IRI Workbench IDE pro DarkShield vyberte New Database Discovery Job z nabídky DarkShield. Vyberte složku projektu a zadejte název úlohy:

Určení zdroje a cíle

Jakékoli adresy Mongo, Cassandra nebo ElasticsearchURL, které byly dříve vytvořeny a uloženy v registru, jsou přístupné z URI pro výběr zdroje a cíle. Bude také nutné zadat název odpovídající kolekce MongoDB, tabulky Cassandra nebo indexu Elasticsearch:

Nový URI lze také vytvořit stisknutím Nový knoflík. Otevře se dialogové okno Podrobnosti připojení URL. Zadejte název připojení, vyberte požadované schéma, zadejte hostitele a zadejte databázi. Pokud není přítomen žádný port, bude se předpokládat výchozí port pro schéma.

Pokud databáze vyžaduje autorizaci, lze také zadat uživatelské jméno a heslo. Všechna nová připojení URL budou uložena v registru připojení URL a lze je znovu použít jako cíl.

Po zadání zdroje můžete pokračovat na další stránku a vybrat nebo vytvořit cílové URI. Schéma cílového URI bude omezeno na vybraný zdrojový URI, takže zdroj MongoDB lze odeslat pouze do jiného cíle MongoDB a podobně pro Cassandra nebo Elasticsearch.

Když je spuštěna maskovací úloha, všechny řádky ve zdroji budou připojeny k cíli a všechny řádky s odpovídajícími klíči budou přepsány. U Cassandry se ujistěte, že schéma cílové tabulky je kompatibilní s daty ze zdrojové tabulky.

Přidání vyhledávacích shod

Po zadání zdroje i cíle můžete přejít na další stránku a přidat vyhledávače. Vyberte umístění knihovny obsahující libovolné knihovny vzorů nebo pravidel, které chcete použít, a klikněte na Přidat přidat nový Search Matcher.

KeyNameMatcher

První Search Matcher, který vytvoříme, bude použit k porovnání celé hodnoty odpovídající libovolnému klíči „name“ umístěnému v libovolně vnořených strukturách json ak jeho maskování použijeme algoritmus Format Preserving Encryption. Toho můžeme dosáhnout vytvořením filtru cesty JSON „$..name“. Další informace o cestách JSON naleznete zde.

Vzhledem k tomu, že kolekce MongoDB, tabulky Cassandra a indexy Elasticsearch analyzuje DarkShield jako dokumenty json, lze filtr použít na oba, aby se zamaskovala jakákoli hodnota odpovídající libovolnému klíči „name“.

Abychom odpovídali obsahu filtrovaných dat, musíme vytvořit novou třídu dat . Třída dat představuje PII a související páry používané k jejich identifikaci. Tyto páry mohou zahrnovat libovolnou kombinaci:

  • Vzory regulárních výrazů
  • Nastavte vyhledávání ve slovníku souborů
  • Modely rozpoznávání pojmenovaných entit
  • Vymezovací boxy (pouze obrázky)
  • Rozpoznávání obličeje (pouze obrázky)

Datové třídy můžete definovat v průvodci nebo otevřením Datové třídy a skupiny na stránce Předvolby IRI . Datové třídy definované v předvolbách lze použít v FieldShield i DarkShield pro jiné zdroje dat, včetně strukturovaných a nestrukturovaných dat.

Můžeme vytvořit přidružené VŠE Třída dat pro tento párovač, která se bude shodovat s celým obsahem hodnoty, protože jsme si přiměřeně jisti, že vše, co v hodnotách najdeme, jsou jména. Pokud si nejste jisti obsahem svých klíčů „name“ nebo pokud chcete maskovat pouze podmnožinu jmen, můžete použít vyhledávání souborů obsahujících slovník jmen.

Pro Název pravidla pole KeyNameMatcher, můžeme vybrat existující datové pravidlo z umístění knihovny, které jsme vybrali, nebo vytvořit nové pravidlo, které používá šifrování zachovávání formátu (FPE), například:

Chcete-li vytvořit pravidlo FPE, klikněte na Vytvořit vedle Název pravidla vyberte Funkce šifrování nebo dešifrování z Průvodce datovými pravidly, který se zobrazí:

Zadejte vhodnou přístupovou frázi, která bude sloužit jako váš šifrovací/dešifrovací klíč, což může být explicitní řetězec, proměnná prostředí nebo název zabezpečeného souboru obsahujícího tento řetězec.

EmailsMatcher

Po dokončení předchozího dialogu a vytvoření našeho nového nástroje KeyNameMatcher můžeme přidat další nástroj Search Matcher pro e-mailové adresy. Jednoduše klikněte na Přidat pro vytvoření dalšího nástroje Search Matcher, který chcete přidat do seznamu.

IRI Workbench je dodáván s předinstalovaným EMAIL Třída dat, kterou lze vybrat kliknutím na Procházet vedle Název datové třídy pole a výběrem EMAIL z rozbalovací nabídky.

Pro datové pravidlo můžete vybrat pravidlo FPE, které jste vytvořili pro předchozí Search Matcher, kliknutím na Procházet vedle Název pravidla pole nebo vytvořte nové s jednou z mnoha dostupných maskovacích funkcí. Vytvořil jsem jednoduchou funkci Data Redaction, která nahradí celý e-mail hvězdičkami.

Váš Search Matcher lze nyní přidat do seznamu kliknutím na OK.

NamesMatcher

Náš poslední Search Matcher bude použit k vyhledání jmen v volně plynoucím textu. K tomu použijeme Rozpoznávání pojmenovaných entit (NER) najít jména pomocí kontextu věty. Chcete-li začít, musíme kliknout na Přidat k vytvoření nového nástroje Search Matcher a vytvoření nové datové třídy s názvem NAMES_NER:

Chcete-li vytvořit NAMES_NER Data Class, nejprve si musíme stáhnout model Person Name Finder, en-ner-person.bin , z úložiště OpenNLP sourceforge. Poté klikněte na Přidat pro přidání nového dohazovače vyberte NER Model z rozbalovací nabídky. Klikněte na Procházet a přejděte do umístění staženého modelu; například:

Po vytvoření nové datové třídy klikněte na OK a vyberte datové pravidlo FPE, které jste definovali dříve, abyste dokončili vytváření nástroje Search Matcher:

Všimněte si, že náš NamesMatcher a KeyNameMatcher mohou mít překrývající se shody. Pokud k tomu dojde, DarkShield vybere nejdelší dostupnou shodu a odstraní všechny další překrývající se shody. Tímto způsobem se nemusíte obávat, že DarkShield použije maskovací funkci na již maskované hodnoty.

Jakmile přidáte všechny požadované shody, kliknutím na tlačítko Dokončit vygenerujte .search soubor.

Vygenerované .search soubor lze prohlédnout a zobrazit podrobnosti o hledání. To zahrnuje zdrojové a cílové URI a informace o všech párech.

Krok 2 – Proveďte vyhledávání (vytvořte .Darkdata Soubor)

Dokončení Úlohy zjišťování temných dat průvodce vygeneruje nové .hledání konfigurační soubor. Tento soubor obsahuje možnosti, které jsme vybrali, včetně zdroje a cíle našich dat a vyhledávacích shod, které budou použity k označení PII za účelem zjištění, doručení, smazání a/nebo deidentifikace.

Chcete-li zahájit vyhledávání, klikněte pravým tlačítkem na .search vyberte Spustit jako a vyberte buď IRI Search Job nebo IRI Search and Remediate Job .

Hledat provede pouze vyhledávání, zatímco Hledat a opravovat se také pokusí zamaskovat (nebo smazat) jakákoli identifikovaná data. Oba vygenerují .darkdata soubor identifikující data, která vás zajímají.

Zdroj, který jsem použil, byl naplněn náhodně generovanými hodnotami, takže není na škodu sdílet vygenerovaná .darkdata soubor zde. Při manipulaci se skutečně citlivými informacemi by však uživatelé měli zajistit .darkdata soubor není vystaven a je bezpečně archivován nebo smazán po dokončení nápravy, aby se zabránilo úniku PII. IRI přidá možnost karantény pro ukládání .darkdata soubor a odpovídající vyhledávací artefakty na bezpečném místě; kontaktujte [email protected] pro podrobnosti o této plánované funkci.

Krok 3 – Náprava (maskování)

Maskování nebo mazání dat lze opět provést během vyhledávacích operací pomocí Vyhledat a opravit možnost v průvodci Dark Data Discovery. Pokud však chcete identifikované informace pouze prozkoumat a později je opravit, spusťte úlohy maskování z .darkdata soubor vytvořený ve vyhledávání (krok 2) tímto způsobem: 

Klikněte pravým tlačítkem na .darkdata soubor, najeďte myší na Spustit jako a klikněte na IRI Remediate Job . Po spuštění úlohy by se opravená data měla objevit v cílové databázi.

Zde je příklad ukazující před a po malé kolekci databáze MongoDB pomocí příkazového řádku Workbench pro přístup k místnímu serveru Mongo:

ZÁVĚR

V tomto článku jsme demonstrovali novou schopnost IRI pro přístup k nestrukturovaným datům v databázích Mongo, Cassandra keyspace a Elasticsearch Clusters pomocí několika Search Matchers v IRI DarkShield. Můžete zkontrolovat vygenerovaná .darkdata modelu, abyste viděli výsledky vyhledávání, které byly nalezeny a opraveny, a zkontrolujte svou databázi, abyste viděli aktualizované tabulky/kolekce.

  1. Pokud jsou PII vloženy do binárních objektů ve vašich sbírkách MongoDB, Cassandra, Elasticsearch, můžeme pomoci zautomatizovat jejich extrakci do samostatných souborů pro operace vyhledávání/masky DarkShield a jejich opětovný import.
  2. li>
  3. IRI Workbench IDE, postavené na Eclipse™, představuje všechny FieldShield, DarkShield a související maskování dat – a širší možnosti zpracování dat – na platformě IRI Voracity.
  4. Registr připojení URL se používá ke konfiguraci a ukládání zdrojů dat založených na URL používaných v operacích DarkShield vyhledávání/maska ​​a CoSort/SortCL (Voracity) ETL; např. HDFS, Kafka, S3 buckets, MongoDB, S/FTP. Tento registr je podobný, ale není totožný s registrem Data Connection v IRI Workbench pro zdroje relačních databází, kde jsou ODBC DSN přemostěna do odpovídajících profilů připojení JDBC, aby mohli průvodci úlohami využívat obě připojení.
  5. Search Matcher je spojení mezi třídou dat , který se používá k definování metody vyhledávání pro nalezení a klasifikaci PII a Data Rule který bude aplikován na jakoukoli instanci datové třídy nalezené v kolekci nebo tabulce. Kromě toho vám Search Matchers umožňují definovat filtry, které lze použít ke snížení rozsahu vyhledávání. To je užitečné zejména ve sbírkách Mongo, tabulkách Cassandra a indexech Elasticsearch, protože název klíče může naznačovat PII, které je uloženo v odpovídající hodnotě.

  1. Jak opravit VAROVÁNÍ při spuštění obrazu redis:alpine Docker

  2. Optimalizovaný způsob dotazování v MongoDB pomocí $in vs $or

  3. Redis hospoda/sub na kolejích

  4. Jak zřetězit řetězce v SQL