COMPUTERWORLD
Specializovaný týdeník o výpočetní technice

Seriál
o bezpečnosti
a informačním soukromí

Část 5 - CW 14/97

Rozsáhlé databáze osobních informací

Václav Matyáš ml


Seskupováním osobních dat do rozsáhlých databází dochází k tomu, že takovýmto kombinováním dat o určité citlivosti lze získat informace daleko citlivější (závaznější), které jinak spadají do kategorie s vyššími požadavky na ochranu. Pro seskupování se také používá termín agregace (z angl. Aggregation). Představte si, že máte k dispozici kompletní informace o zdravotním stavu a finanční situaci

1. manžela nebo manželky,

2. přímého nadřízeného,

3. všech zaměstnanců organizace, kde pracujete,

4. všech obyvatel města/vesnice, kde žijete,

5. všech klientů určité banky nebo zdravotní pojišťovny.

Cítíte ten rozdíl? Jedná se přitom o stejné informace -- jen se mění druh a počet osob, ke kterým se vztahují. A představte si, jaký zájem o tyto informace musí mít třeba banka, která poskytuje úvěry a hypotéky, nebo např. pojišťovací agent...

Pravděpodobnost, že budou informace neoprávněně zpřístupněny, záleží na dvou faktorech:

-- hodnotě informací,

-- počtu osob, které mají k informacím přístup (operátoři i uživatelé systému).

Statistické databáze

Podobné problémy byly poprvé studovány v souvislosti s databázemi údajů ze sčítání lidu v USA. Podobně se také využívají data získaná u nás při sčítání lidu, kdy uvádíte náboženské vyznání i počty televizorů, praček atd. Takové databáze sice obsahují citlivé údaje o jednotlivcích, ale jejich využití má být pouze pro statistické dotazy k vytvoření obrazu o celkových potřebách obyvatelstva a formulování vládní politiky -- podpora církví, určení vybavenosti domácnosti podle lokalit atd. Výsledky dotazů v takovýchto databázích nesmějí poskytnout údaje o jednotlivcích.

V roce 1979 se známé odbornici Dorothy Denningové podařilo prokázat, že prostředky, které využívala americká vláda pro formulaci dotazů a získávání odpovědí ze statistické databáze sčítání lidu povolovaly konstrukci takových dotazů, které umožnily získat údajně tajné informace o jednotlivci. Podle přesvědčení vládních činitelů byly takové informace opravdu tajné a dobře chráněné -- dokud Denningová nezjistila plat svého šéfa sérií legitimních dotazů v databázi.

Konstrukce série takových dotazů nebývá obvykle jednoduchá. Představte si ale, že se zpřesňováním dotazu až na kolik je měst s 17--18 000 obyvatel, kde žije jen jeden muž, který je 36letý evangelík slovenské národnosti, jeho 28letá žena žije mimo toto město, 6letá dcera s touto ženou a 15letý syn s oním mužem dostanete k odpovědi 1. Pak už lze jednoduše zjistit plat tohoto našeho souseda jen doplňováním dotazů o ..., jehož příjem je X-Y měsíčně a určováním X a Y tak, aby odpověď byla stále 1 a ne 0.

Pokud nám systém spravující databázi pro statistické dotazy umožní podobný postup, pak je to špatný systém. Existují tři druhy protiopatření.

1. Minimální rozsah dotazu a to buď s omezením minima

-- celkového počtu záznamů použitých pro tvorbu odpovědí, nebo

-- počtu záznamů použitých pro tvorbu odpovědí na každou automatickou část dotazu.

Např. první uvedenou techniku využívají databázové systémy novozélandského národního zdravotního systému.

2. Náhodný výběr je technika nyní používaná v americké databázi údajů ze sčítání lidu. Každý dotaz je zodpovězen na základě vyhodnocení náhodně vybraných záznamů ze všech existujících záznamů.

3. Perturbační (zmatečné) techniky podle některých definic zahrnují i výše uvedený náhodný výběr. Obecně se jedná o přidání pseudonáhodného "šumu" tak, aby odpovědi byly konzistentní, ale získání elementární odpovědi na sérii podobných dotazů nebylo možné. Často jsou používány dvě metody

-- k záznamům zahrnutým pro vyhodnocení dotazů se přidají další náhodně vybrané podobné záznamy

-- vypočtená hodnota nebo mezihodnoty jsou zaokrouhlovány nebo mírně pozměněny.

Problém inference (odvození), který jsme diskutovali, je definován jako odvození informací o vyšší citlivosti zpracováním a analýzou skupiny informací o nižší citlivosti nebo také nepřímý přístup k informacím bez přímého přístupu k datům, která tyto informace reprezentují.

Tři dimenze

I samotné utajení dat je velmi složitým problémem. Když se poprvé objevil AIDS, tak mnohá zdravotnická zařízení ve světě postupovala tak, že záznamy pacientů HIV pozitivních převedla mimo dosah běžných uživatelů zdravotnického informačního systému. Pak je ale jednoduché odvodit, že pacient, jehož záznam nemůže "běžný" lékař získat, je pacientem HIV pozitivním. Opět se jedná o inferenci. A obdobný je i triviální problém u víceúrovňových systémů (horizontální členění), kdy může činnost uživatele na nižší úrovni odhalit fakta odpovídající úrovni vyšší. Téměř klasický případ bývá uváděn při zápisu souboru. Pokud se uživatel na úrovni "Důvěrné" pokusí ve víceúrovňovém systému uložit soubor DOCS/IRAN/MISSILES/FORMCZ.DOC a obdrží systémové hlášení, že soubor již existuje a uživatel nemá právo jej přepsat, pak lze jednoduše odvodit, že soubor již vytvořil a využívá někdo na úrovni vyšší.

Při utajení datové položky je třeba zvážit tři dimenze:

1. tato data jsou utajována

2. existence těchto dat je utajována

3. důvod pro utajení těchto dat je utajován.

Řešení první dimenze je nejjednodušší -- přístup k datům mají jen oprávněné osoby. Technik k realizaci tohoto požadavku existuje několik. Další dvě dimenze vyžadují více zamyšlení a kreativní řešení. Ochrana před inferencí je jedním ze stále ne stoprocentně vyřešených témat při návrhu bezpečných víceúrovňových databází. Pro některé situace vystačí perturbační techniky, jindy zase důsledné vedení auditního záznamu a jeho průběžné hodnocení pro zjištění pokusu o útok na data prostřednictvím inference. Žádné z dosavadních řešení však není všelékem.

Osobní data

Jakékoliv údaje, které se vztahují k určité osobě, jsou osobními údaji. Na první pohled triviální, ale při jednotlivých rozhodováních a úvahách je problém složitější. Šest bajtů "Beroun" jako osobní údaj nevypadá. Pokud ale umožní určit jedince nebo jeho činnost, pak se o osobní údaj jedná.

Přesné definice pro zákonné normy se liší formou, málokdy však obsahem. Uvedl bych definici osobních dat jako dat o jednotlivci, která umožňují identifikovat daného jedince, jeho činnost, nebo která jsou pro jedince citlivá. Může se jednat o identifikaci informace (rodné číslo, jméno, fotografie, otisk prstu), data o vzdělání, majetku, trestné činnosti či zdravotním stavu atd.

Důležitým faktorem pro ochranu osobních dat bývá to, zda data byla nebo nebyla zveřejněna. Zveřejněná data již obvykle nepožívají takové míry ochrany jako data nezveřejněná. Záležitostem, týkajícím se ochrany osobních dat u nás i ve světě, se budeme v některých dalších dílech věnovat podrobněji, protože se jedná o téma aktuální a u nás zvláště díky dědictví komunismu i stávající právní džungli ne zcela objasněné a chápané.

Zkuste se v souvislosti s osobními údaji zamyslet nad pojmy vlastník informace a držitel informace a také nad pojmy, které naši zákonodárci již vymysleli pro zákon o osobních údajích v IS -- dotčenou osobu a provozovatele, uživatele či zprostředkovatele. :-) Nebuďte dotčeni. :-)


| COMPUTERWORLD - seriál o bezpečnosti | COMPUTERWORLD | IDG CZ homepage |