sql >> Databáze >  >> RDS >> Database

Anonymizace nepřímých identifikátorů pro snížení rizika Re-ID

Kvazi-identifikátory nebo nepřímé identifikátory jsou osobní atributy, které jsou pravdivé, ale nemusí být nutně jedinečné pro jednotlivce. Příklady jsou věk nebo datum narození, rasa, plat, dosažené vzdělání, povolání, rodinný stav a PSČ. Porovnejte je s přímými, jedinečnými identifikátory, jako je celé jméno osoby, e-mailová adresa, telefonní číslo, občanský průkaz, číslo pasu nebo kreditní karty atd.

Většina spotřebitelů si je již vědoma rizik spojených se sdílením jejich jedinečných, osobně identifikovatelných informací (PII). Odvětví zabezpečení dat se také obvykle zaměřuje na tyto přímé identifikátory. Ale pouze pomocí pohlaví, data narození a PSČ lze identifikovat 80–90 % populace USA.

Téměř kdokoli může být znovu identifikován z jinak maskované datové sady, pokud zůstane dostatek nepřímých identifikátorů a lze je připojit k populaci nadmnožiny s podobnými hodnotami.

Pravidlo HIPAA Expert Determination Method týkající se chráněných zdravotních informací (PHI) a zákon FERPA týkající se ochrany osobních údajů studentů tyto obavy zohledňují a vyžadují, aby datové soubory měly statisticky nízkou pravděpodobnost opětovné identifikace (dnes je standardem méně než 20 %). Ti, kteří chtějí používat zdravotní a vzdělávací data pro výzkumné a/nebo marketingové účely, musí tyto zákony dodržovat, ale také spoléhat na demografickou přesnost kvaziidentifikátorů, aby byla data hodnotná.

Z tohoto důvodu mohou úlohy maskování dat v produktu IRI FieldShield nebo IRI Voracity (platforma pro správu dat) použít jednu nebo více dodatečných technik ke znejasnění dat, a přitom je zachovat dostatečně přesné pro výzkumné nebo marketingové účely. Číselné funkce rozmazání například vytvářejí náhodný šum pro zadané věkové a časové rozsahy, jak je popsáno v tomto článku.

Na základě tohoto článku tento příklad ukáže, jak může IRI Workbench vytvářet a používat soubory sady k anonymizaci kvazi-identifikátorů.

Začněte v Generalization via Bucking Průvodce, dostupný ze seznamu pravidel ochrany dat:

Jakmile se průvodce otevře, začněte definovat zdroj hodnot pro nastavený soubor, včetně formátu zdroje a pole vyžadujícího zobecněnou hodnotu nahrazení.

Na další stránce jsou dva druhy náhrad souborů:Použít soubor jako skupinu a Použít soubor nastavení jako rozsah možnosti. Tento příklad využívá Použít soubor sady jako skupinu volba. Článek o rozmazání dat demonstruje Použít soubory sady jako rozsah volba. Zde vytvořené vyhledávací sady budou použity k pseudonymizaci původních kvazi-identifikátorů s novou hodnotou zobecnění.

Tato stránka je místem, kde se vytvářejí seskupení mezi každou z původních kvaziidentifikujících hodnot pole. Vlevo jsou jedinečné hodnoty v dříve vybraném poli. Skupiny lze vytvořit buď přetažením do hodnot skupin vlevo, nebo ručním zadáním hodnot. Každá skupina také potřebuje jedinečnou náhradní hodnotu. Toto je hodnota, která nahradí původní hodnotu ve skupině. V tomto příkladu bude jakákoli hodnota „9th“ nahrazena hodnotou „High School“.

Přidáním skupin, dokud nebudou pokryty všechny zdrojové hodnoty, vznikne následující soubor vyhledávací sady pro anonymizaci kvaziidentifikátoru stavu vzdělání:

Pokud jsou vyžadovány další úrovně bucketování, lze znovu spustit průvodce bucketováním pomocí tohoto souboru sady jako zdroje.

Když je soubor sady použit v úloze anonymizace dat, zdrojová data se porovnávají s hodnotami v prvním sloupci souboru sady. Pokud je nalezena shoda, data se nahradí hodnotou ve druhém sloupci. Výše uvedený soubor je použit ve skriptu níže na řádku 38.

Použití Workbench k aplikaci pěti různých technik anonymizace vede k následujícímu skriptu:


Zde je zobrazeno prvních deset řádků původních dat:

Anonymizované výsledky po spuštění úlohy jsou zobrazeny zde:

Před těmito zobecněními bylo riziko opětovné identifikace na základě původních nepřímo identifikujících hodnot příliš vysoké. Když však zobecněný soubor výsledků znovu projde průvodcem hodnocením rizik, aby se vytvořilo další určení rizika opětovné identifikace, riziko je přijatelné a data jsou stále užitečná pro výzkumné nebo marketingové účely.

Máte-li jakékoli dotazy týkající se těchto funkcí nebo hodnocení rizika opětovného ID, kontaktujte .


  1. Zpráva o databázi Open Source za rok 2019:Nejlepší databáze, veřejný cloud vs. On-Premise, Polyglot Persistence

  2. Získejte název dne z data v PostgreSQL

  3. Načte záznamy, které jsou nenulové za desetinnou čárkou v PostgreSQL

  4. Simulace CONNECT BY PRIOR Oracle na SQL Server