- Umulig å anonymisere innsamlet data

Av Kristin Straumsheim Grønli

Publisert 2. februar 2015

Den store mengden data som samles inn om folk, blir stadig vanskeligere å anonymisere. Det bør informantene få vite, sier nye etiske retningslinjer.

--umulig---anonymisere-innsamlet-data

--umulig---anonymisere-innsamlet-data

Registerforskning er i vekst – også innen samfunnsvitenskapen. Norge står i en særstilling internasjonalt fordi vi er et så til de grader gjennomregistrert folk – fra opplysninger om utdanning og arbeid til inntekt, trygd og helse. De norske registrene beskrives derfor gjerne som en gullgruve. Forskningen skjer imidlertid ofte uten samtykke fra dem som er registrert, fordi det er for kostbart og upraktisk å innhente.

I registerforskningen har det vært et faktum lenge: Selv om navn, personnummer og andre direkte identifiserende opplysninger er fjernet, kan forskningsdeltakere eller informanter identifiseres via bakveier. Årsaken er at dataene i seg selv danner gjenkjennelige, digitale representasjoner av menneskene. Det er for eksempel ikke så mange rødhårede kvinner med trillinger som har utdannelse som maskiningeniører.

I den nye helseregisterloven er dette tatt høyde for ved at man har erstattet begrepet «avidentifisert» med «indirekte identifiserbar». Dette omfatter helseopplysninger der navn, fødselsnummer og andre personentydige kjennetegn er fjernet, men som likevel kan knyttes til en enkeltperson. Etter loven vil de bli behandlet som identifiserbare opplysninger.

– Den samme problemstillingen gjelder nok for all forskning som baserer seg på sammenstilling av store datasett, sier Grete Alhaug, juridisk seniorrådgiver i Datatilsynet.

Data på avveie

Jo flere registre og jo mer data som samles inn og sammenstilles, jo større blir også risikoen for at opplysninger kommer på avveie. Den teknologiske utviklingen har gjort det mulig å behandle store og sammensatte datasett i kraftige datamaskiner, såkalte Big Data eller stordata. Det har blitt enklere å krysskoble de ulike registrene. Dessuten legger vi nå igjen et tydelig, digitalt dataspor hver gang vi bruker sosiale medier, drar kortet, bruker mobilen, handler eller søker på nettet.

Store aktører håver inn opplysninger fra denne datastrømmen – enten det er etterretningstjenester, konserner eller andre organisasjoner. Forskere kobler seg også på, ved å samle inn data selv eller ved å kjøpe dem fra aktører som samler inn i stor skala.

Utviklingen har gitt spørsmål om anonymisering ny aktualitet. I EU diskuteres et forslag til en ny personvernforordning om behandling av persondata. Forskningsmiljøer har uttrykt bekymring for at forordningen vil skape hindringer for registerforskning, blant annet fordi den begrenser mulighetene til å bruke personopplysninger uten samtykke. Anonymiserte data er unntatt fra reglene i forslaget. Spørsmålet er hva som skal til for å kunne si at et datasett faktisk er anonymisert. Definisjonen i forordningen er gjort til et vurderingsspørsmål. Opplysninger er anonymisert dersom re-identifisering vil kreve en urimelig mengde tid, kostnader og arbeidstimer.

Det er fint med retningslinjer, men vi trenger en kultur og en oppvåkning omkring disse problemstillingene.

Nye etiske retningslinjer            

Den nasjonale forskningsetiske komité for samfunnsvitenskap og humaniora (NESH) har kommet med nye etiske retningslinjer for forskning på internett. Her står det at sammenkoblingen av stordata og sporing av IP-adresser kan føre til at anonymisering blir umulig.

– Det hviler et stort ansvar på forskerne, som må erkjenne at dette er en utfordring, og et dilemma som ikke kan løses med god metodologi alene. Det blir viktig å holde fokus på enkeltindividets rettigheter og integritet når man forsker så tett på dem uten samtykke, sier Vidar Enebakk, sekretariatsleder i NESH.

Retningslinjene slår fast at det kan være vanskelig for en forsker å garantere både at data faktisk er anonymiserte, og at personopplysninger vil bli slettet i etterkant av forskningsprosjektet. Potensielle informanter bør få informasjon om disse utfordringene og eventuelle konsekvenser av forskningen. Dette gjelder særlig når informasjon kobles sammen og genererer nye, sensitive opplysninger om identifiserbare enkeltpersoner.

– Retningslinjene berører registerforskning i den grad de krysskobles med data som er innhentet på internett. Her har vi tenkt at det kan oppstå problemer i fremtiden, sier Enebakk.

– En stor utfordring med internettforskning eller stordata generelt er at individene ikke er bevisste på at dataene er tilgjengelige, og heller ikke vet hva de kan brukes til, sier Alhaug i Datatilsynet.

Selv om NESH har utarbeidet de nye retningslinjene for samfunnsvitenskap, humaniora, juss og teologi, kan det diskuteres om de også burde gjelde andre fagfelt.

– NESH tok initiativet, men retningslinjene burde kanskje være generelle og gjelde alle som forsker på, med eller via internett, sier Enebakk.

Dokumentet berører også en rekke andre tema, for eksempel det problematiske skillet mellom privat og offentlig på internett. Versjonen som ble publisert på nettet i desember, er ikke endelig, men vil ferdigstilles i løpet av 2015.

– Vi håper å få mange reflekterte innspill fra forskere og brukere, sier Enebakk.

– Trenger en oppvåkning

– Det er fint med retningslinjer, men vi trenger en kultur og en oppvåkning omkring disse problemstillingene, ellers klarer vi ikke å få grep om dem, sier Kjetil Rommetveit, forsker ved Senter for vitenskapsteori ved Universitetet i Bergen.

Han understreker at dette ikke bare handler om individuelle rettigheter, men også om kollektive problemer.

– Det dreier seg om tunge politiske og teknologiske utviklingstrekk og strukturer, som forandrer grunnleggende institusjoner. Det er vanskelig å få oversikt over alle endringene mens de skjer. Derfor trenger vi en kultur hvor vi er langt mer oppmerksomme på konsekvensene av databehandling og bruk av stordata, sier Rommetveit.

Han mener det viktigste virkemidlet er en offentlig diskusjon som kan fremdyrke en slik kultur.

– Det handler ikke så mye om de etiske prinsippene i seg selv. Personvernet og det informerte samtykket er der for å beskytte sårbare enkeltindivider, særlig mot staten og store selskaper. Denne beskyttelsen er et politisk problem som er blitt større, samtidig som muligheten til å regulere eller ha offentlig påvirkning er blitt mindre.

Ifølge Rommetveit forsøker den nye EU-forordningen å løse noen av problemene ved å kreve innebygd personvern, kryptering og risikohåndtering. Spørsmålet er i hvilken grad forskere kan erstatte anonymisering og samtykke med andre verktøy for å ivareta personvernet.

– Forskere må belage seg på å bruke mer tid og ressurser på identitetshåndtering med sikkerhetstiltak som gjør at risikoen ved behandlingen av personopplysninger blir minimert. Slike verktøy kan bidra til at man kan tillate bruk av opplysninger i tilfeller der samtykke ikke er mulig å innhente. Informasjon, åpenhet og reell mulighet for reservasjon er andre verktøy som er avgjørende i en personvernmessig vurdering av et forskningsprosjekt, sier Alhaug i Datatilsynet.

Om kort tid kommer en bok om internettforskning fra De nasjonale forskningsetiske komiteene. Helene Ingierd er sekretariatsleder for Den nasjonale forskningsetiske komité for naturvitenskap og teknologi (NENT) og redaktør for boka sammen med Hallvard Fossheim. Åtte bidrag tar for seg ulike problemstillinger knyttet til forskning på personlig informasjon hentet fra nettet.

– Det er forskernes ansvar å bestrebe seg på anonymisering, selv om det vanskeliggjøres av den teknologiske utviklingen. Som hovedregel bør forskningsdeltakere informeres dersom dette blir for vanskelig, sier Ingierd.