sql >> Databáze >  >> RDS >> Database

Jak najít a zamaskovat PII v Elasticsearch

Elasticsearch je vyhledávací stroj založený na Javě, který má rozhraní HTTP a ukládá svá data do dokumentů JSON bez schémat. Online databáze Elasticsearch bohužel nadále sužuje řada nákladných a bolestivých porušení osobních údajů (PII):

Pokud by však byly všechny PII nebo jiné citlivé informace v těchto databázích maskovány, úspěšné hackování a vývojové kopie nemusí být problematické. Účelem IRI DarkShield je uzamknout tyto informace ve výrobě nebo testování pomocí anonymizačních funkcí v souladu se zákonem na ochranu soukromí.

Průvodce vyhledáváním a maskou Elasticsearch v grafickém IDE IRI Workbench pro IRI DarkShield používá stejné nástroje jako konektory MongoDB a Cassandra popsané v tomto článku. Tohoto průvodce lze použít ke klasifikaci, lokalizaci a deidentifikaci nebo odstranění PII a dalších citlivých informací uchovávaných ve sbírkách Elasticsearch ak vytváření výsledků vyhledávání a auditu.

Nastavit

Pokud nemáte cluster Elasticsearch, ke kterému se můžete připojit, můžete snadno vytvořit místní cluster tím, že si stáhnete Elasticsearch odtud a budete postupovat podle návodu.

Pro ukázku tohoto průvodce používám jediný index nazvaný zákazníci na lokálně hostovaném clusteru. Tento index uchovává základní informace o zákaznících, které by se normálně zobrazovaly v účtu, a je bohatým cílem pro zneužití. To zahrnuje:e-mail, jméno a telefonní číslo:

Hledat

Stejně jako u ostatních zdrojů dat, které DarkShield podporuje, musíte vytvořit .search soubor se specifikací úlohy k definování vašich kritérií skenování a trhu. Stejně jako u MongoDB nebo Cassandry vyberte Nové vyhledávání/maskování NoSQL… z nabídky DarkShield v horní části panelu nástrojů IRI Workbench. Vyberte složku projektu a zadejte název úlohy.

Na další stránce vytvořte zdrojový URI:

Zde zadáváte parametry pro váš cluster Elasticsearch. Výchozí hostitel a port pro Elasticsearch jsou localhost a 9200, pokud tato pole zůstanou prázdná.

Pokud cluster, ke kterému se připojujete, potřebuje uživatelské jméno a heslo, zadejte je v části ověřování. V tomto příkladu používám hostitel:localhost, port:9200 a cluster:Elasticsearch.

Na této stránce lze také přidat uživatelské jméno a heslo. Pro jednoduchost této ukázky nebyl místní cluster nakonfigurován s ohledem na zabezpečení. Každý skutečný cluster by měl mít povoleno přihlášení a oprávnění pro skutečné případy použití.

Klikněte na OK dokončit a vrátíte se na předchozí stránku. Zadejte rejstřík, který chcete prohledávat. V tomto příkladu používám index s názvem zákazníci .

Dále budete muset nastavit cílové URI pro maskované výsledky. Mějte na paměti, že pouze maskované výsledky Elasticsearch lze odeslat pouze do cílů Elasticsearch. V tomto případě použiji stejné URI zákazníka vytvořené dříve, ale s jiným indexem. Tím se vytvoří nový index s maskovanými výsledky, které budou vytvořeny později v této ukázce.

Dále budete požádáni o vytvoření nástroje Search Matcher, který je zodpovědný za přidružení datové třídy k odpovídajícímu datovému (maskovacímu) pravidlu. Toto je nezbytný krok, protože bez něj nelze použít žádné maskování.

Jak je vysvětleno v článku Klasifikace dat, datové třídy centrálně katalogizují a definují globální kritéria pro vyhledávání a maskování PII ve strukturovaných, polostrukturovaných nebo nestrukturovaných zdrojích pro FieldShield i DarkShield. IRI Workbench se dodává s několika předdefinovanými datovými třídami (např. jména, e-mailové a IP adresy, čísla kreditních karet), které najdete v Window> Preferences> IRI> Data Classes and Groups . Můžete je upravit a přidat vlastní.

Klikněte na Procházet nebo Vytvořit na řádku Data Class. Procházet vám umožní vybrat si vlastní datové třídy nebo jednu z několika předdefinovaných tříd nebo skupin, včetně e-mailu, telefonního čísla a jmen. V tomto případě skupina datových tříd NAMES zahrnuje datovou třídu křestních jmen.

Zde jsem vybral datovou třídu EMAIL, která bude hledat e-maily v rámci mého indexu Elasticsearch:

Nyní musí být na vybranou datovou třídu aplikováno maskovací pravidlo. Klikněte na Vytvořit vytvořte nové datové pravidlo nebo Procházet použít jakékoli, které jste již definovali.

Pro e-maily volím funkci redakce:

Více než jednu datovou třídu lze samozřejmě maskovat současně. Přidal jsem třídy a přiřadil jsem telefonním číslům šifrovací funkci pro zachování formátu a pro jména lidí náhodný pseudonym (vyhledávání souboru):

Pokud jsou potřeba nějaké vyhledávací filtry, lze je přidat na předchozí stránku. Filtry lze použít k vyhledání konkrétních výsledků nebo k izolaci konkrétních polí v CSV, XML, JSON nebo RDB, která mají být maskována, což vylučuje potřebu skenování obsahu řádků. V tomto případě jsem však žádné neuvedl.

Klikněte na Dokončit až bude hotovo. Tím je průvodce dokončen a vytvoří se .search soubor, který obsahuje podrobnosti o konfiguraci DarkShield pro provádění vyhledávacích a/nebo maskovacích úloh.

Poznámka: Pokud používáte výchozí lokálně hostovaný cluster, jako je ten v tomto příkladu, ujistěte se, že je cluster zapnutý, protože jinak selžou jakékoli úlohy hledání nebo maskování. Zda server běží, můžete zkontrolovat otevřením webového prohlížeče a zadáním „http://localhost:9200/“ do adresního řádku.

Vyhledávání a maskování

DarkShield podporuje vyhledávání a maskování jako samostatné nebo simultánní operace. V tomto případě chci nejprve hledat a vidět, co jsem našel, než to zamaskuji. Je to proto, že (větší) úlohy maskování mohou nějakou dobu trvat a možná budu chtít zdokonalit své metody vyhledávání a znovu je ověřit.

Chcete-li to provést, klikněte pravým tlačítkem na .search soubor a spusťte soubor jako vyhledávací úlohu. Tím se vytvoří .darkdata s výsledky právě provedeného vyhledávání. Artefakt se ve Workbench objeví takto:

Po kontrole výsledků můžete spustit soubor .darkdata soubor jako maskování úkol opravit kolekci pomocí redakční funkce, kterou jsem zadal.

Dříve hledané výsledky budou v cílovém umístění maskovány. Chcete-li to ověřit, můžete provést vyhledávání znovu a zjistit, že data byla nyní označena jako „DarkShield’ed“; tj. redigované e-maily, pseudonymizovaná křestní jména a telefonní čísla maskovaná šifrováním zachovávajícím formát:

Pokud potřebujete pomoc s ochranou vašich sbírek Elasticsearch maskováním jejich neaktivních dat prostřednictvím tohoto rozhraní DarkShield v IRI Workbench nebo jeho CLI, nebo jakýchkoli polo-/nestrukturovaných dat za letu prostřednictvím REST API DarkShield, zašlete e-mail na [email protected].


  1. Výjimka:K tomuto připojení je již přidružen otevřený DataReader, který je třeba nejprve zavřít

  2. Jak vytvořit balíček v Oracle SQL Developer?

  3. MariaDB představí TO_CHAR()

  4. Spouštěč v SQL