Artikkel publisert på forskning.no, 20. mai 2016

Mastergradsstudentene Emil Kirkegaard og Julius Daugbjerg Bjerrekær fikk hjelp av en tredje student til å lage en programvare som automatisk samlet inn store mengder data om 70 000 brukere av datingnettstedet OkCupid, ifølge Vox.com.

Deretter publiserte de hele datafilen, sammen med en artikkel som beskrev metoden og dataene, på The Open Science Framework, en portal for åpen deling av forskningsdata.

– OkCupid-artikkelen er sendt inn. Dette betyr at datasettet nå er offentlig tilgjengelig. Kos dere! skrev Kirkegaard på Twitter mandag 9. mai.

Informasjon om seksuelle preferanser og narkotika

Problemet var at studentene verken hadde bedt brukerne eller datingnettstedet om tillatelse til å samle inn og publisere de til dels svært sensitive opplysningene. Dette bryter med det internasjonalt anerkjente prinsippet om å hente inn informert samtykke fra de berørte når man skal forske på persondata.

Selv om ingen av OkCupid-brukerne er direkte navngitt, inneholder datafilen nok informasjon til å kunne identifisere dem, blant annet brukernavn, sted, alder og stjernetegn. I tillegg var dataene koblet til brukernes svar på en rekke spørsmål nettstedet stiller for å kunne matche dem med potensielle partnere.

Spørsmålene dreide seg blant annet om brukernes seksuelle preferanser, om de noen gang bruker prøvd narkotika og om hvorvidt folk med lav IQ ikke burde få lov til å formere seg.

Det varte ikke lenge før kritikken mot studentene haglet.

– Samfunnsvitenskapen når et nytt lavmål. @KirkegaardEmil bryter grunnleggende lovverk om personvern og samtykke. Ingen tidsskrifter bør publisere dette, var én av de umiddelbare reaksjonene på Twitter.

– Dette datasettet er høyst reidentifiserbart. Det inneholder til og med brukernavn. Ble det gjort noe for å anonymisere dette i det hele tatt? spør en annen.

– Nei. Dataene er allerede offentlig tilgjengelige, svarte Kirkegaard.

– Dette er uten tvil den mest uprofesjonelle, uetiske og forkastelige datapubliseringen jeg noen gang har sett, skrev Oliver Keyes, forsker ved MIT Medialab, på bloggen sin.

– Uansett offentlig tilgjengelig

I artikkelen, som nå er fjernet fra Open Science Framework, skrev studentene at de regnet med at noen trolig vil ha innvendinger mot etikken i å samle og offentliggjøre disse dataene.

De mente likevel at alle data i datasettet uansett allerede var offentlig tilgjengelige. Å publisere dem innebar derfor bare å presentere informasjonen i en mer brukervennlig form, hevdet de.

Elisabeth Staksrud er nestleder i Den nasjonale forskningsetiske komité for samfunnsvitenskap og humaniora (NESH) og førsteamanuensis i medievitenskap ved Universitetet i Oslo. Hun har vært tett involvert i utviklingen av NESHs Etiske retningslinjer for forskning på Internett og mener argumentet til Kirkegaard ikke holder.

– Dette handler ikke om hvorvidt det er offentlig tilgjengelige data eller ikke, men at det nettopp er denne typen data som de kobler sammen og publiserer uten å innhente samtykke fra informantene. I dette tilfellet snakker vi jo om veldig sensitiv informasjon som OkCupid-brukerne ikke selv har sett for seg at skal bli publisert og brukt i forskning, sier hun.

Universitetet toer sine hender

Aarhus Universitet, der Kirkegaard er masterstudent, tar avstand fra det hele. De skriver på sin Twitterkonto at dette er noe studentene har gjort på privat initiativ, uten tilknytning til universitetet.

Kirkegaard bekrefter at dette er riktig, men har oppgitt tilknytning til Aarhus Universitet i artikkelen han og medstudentene publiserte på Open Science Framework.

– Når du setter et universitet som tilknytning på en oppgave eller en vitenskapelig artikkel, betyr det at du sier at du gjør forskningen som tilknyttet dem, kommenterer Jill Walker Rettberg. Hun er professor i digital kultur ved Universitetet i Bergen.

– I det øyeblikket du går inn i rollen som forsker, skal du følge de forskningsetiske prinsippene, sier Staksrud og påpeker at respekt for informantene er en integrert del av forskningsetikken.

– Det må være en etisk refleksjon i bunnen her og i tillegg må forskerne handle i tråd med de forskningsetiske prinsippene. Det er vanskelig å se at de har gjort det i dette tilfellet, sier hun.

Hvor langt strekker universitetenes ansvar seg?

Staksrud mener en faktor som kompliserer det hele, er at de som har gjort dette, er masterstudenter. Hun mener saken reiser interessante spørsmål om universitetenes og høyskolenes ansvar.

– I hvilken grad lærer de faktisk opp alle studentene sine i forskningsetikk, ikke bare doktorgradsstudentene? Forskningsetikk er noe du må installere i bevisstheten hos studentene slik at de tar det med seg overalt. Og hvor langt skal institusjonens ansvar strekke seg når det gjelder egne studenter som utfører forskning, men ikke som del av noen formell studentoppgave? spør hun.

Selv om Open Science Framwework nå har fjernet både datasettet og artikkelen fra nettportalen, er datafilen allerede lastet ned mer enn 500 ganger. Flere skal også allerede være i gang med å analysere dem, ifølge vox.com.

Ifølge Danmarks Radio vurderer nå det danske Datatilsynet å undersøke saken nærmere.

Har skjedd før

Det er ikke første gangen argumentet om at data som ligger offentlig tilgjengelig, er brukt for å rettferdiggjøre bruk av store mengder persondata fra nett uten samtykke.

I 2008 publiserte amerikanske forskere data fra Facebook-kontoene til mer enn 1700 studenter fra et ikke identifisert college, samlet inn over flere år. Det viste seg i ettertid at det var mulig å finne ut hvilket college det var snakk om, og ingen av studentene hadde samtykket til at informasjonen deres kunne brukes i forskning, skriver Dag Elgesem i boken Internet research ethics.

Som del av et forskningsprosjekt utviklet studenter fra MIT i 2009 programvare som ved å analysere vennelister på Facebook, kunne identifisere menns seksuelle orientering ved å analysere kjønnet og legningen til kontaktene deres i sosiale medier. Dette var mulig å gjøre selv om resten av profilinformasjonen deres var satt til «privat».

Også i Norge har vi sett liknende tilfeller, om enn i mindre skala. Flere slike saker har vært til behandling hos NESH de siste årene. Problemstillinger som går igjen er om informasjon som ligger åpent ute på nett, er offentlig tilgjengelig og kan brukes i forskning uten å hente inn samtykke, samt om muligheten for reidentifisering.