I Stiftelsen Dam deler vi årlig ut rundt 300 millioner kroner til helseprosjekter og-forskning. Innleide eksperter vurderer søknadene for oss før vi tar en avgjørelse. For ikke lenge siden skjedde det en liten feil i datasystemet vårt som gjorde noe med fordelingen av søknadene til en av våre eksperter. Han visste det ikke selv, men én av de rundt 70 søknadene han fikk til vurdering, dukket opp to ganger.

Første gang landet han på at det var en god søknad. Karakter 4 på en skal fra 1 til 7. To uker senere ga han seg i kast med nøyaktig samme søknad på nytt og merket det ikke. Hva skjedde? Han ga den bunnkarakteren 1.

Som finansiør havnet vi i en vanskelig situasjon. Hvilken av vurderingene skulle vi stole på?

Tilfeldig enighet

Hendelsen er uvanlig. Derfor vet vi lite om hvor enige ekspertene er med seg selv, men vi vet mye om graden av enighet mellom ulike eksperter.

Hver søknad som sendes til oss, vurderes av to til fem eksperter, uavhengig av hverandre. Selv om kriteriene de skal forholde seg til, er de samme for alle, må vi forvente at vurderingene vil sprike. Ekspertene er tross alt mennesker med ulike preferanser, og ikke alle leser søknadene på nøyaktig samme måte.

Men det finnes grader av uenighet. Vi har kartlagt enigheten mellom par av eksperter som vurderer samme søknad i et av våre programmer.

I seks av ti tilfeller var ekspertene «enige» om karakteren. I denne sammenhengen var det definert som en forskjell på maksimalt én karakter. Det virker jo bra, tenker du kanskje. Men hadde ekspertene trukket karakterene tilfeldig, ville fordelingen sett nesten helt lik ut.

«Kappa» er et mål som tar høyde for tilfeldig enighet. 1,0 representerer perfekt enighet, mens verdier under 0,4 omtales som så lave at vurderingene i liten grad kan brukes. I dette tilfellet var verdien 0,2.

Flere internasjonale studier viser at vi ikke er alene om lav enighet mellom eksperter.

Lærer opp ekspertene

Denne måten å fordele forskningsmidler på har bred oppslutning, og de alternative måtene å gjøre det på har kanskje enda større svakheter. Men så høy grad av uenighet burde likevel bekymre alle som fordeler penger gjennom slike prosesser.

Vurderingene er ment å fortelle oss hvilke prosjekter det er best å investere penger i, men dersom de ikke er konsistente, kan de ikke brukes til det. Oversatt til ditt dagligliv: Hadde du beholdt et termometer som i tre målinger på rad viste at du holdt en temperatur på henholdsvis 36, 41 og 38 grader? Neppe.

Vi har tatt noen konsekvenser av dette. For det første har vi økt antallet eksperter som leser søknadene våre. Det jevner ut en del av de tilfeldige variasjonene. Vi tester også ut opplæringstiltak der målet er at ekspertene får en økt felles forståelse av vurderingskriteriene og karakterskalaen.

Det viktigste er kanskje at vi systematisk kartlegger uenigheten og er åpne om den. Vi mener det bør være en sentral del av nøkkeltallene fra enhver finansiør, men mistenker at de færreste noensinne har undersøkt det. 

Milliarder på milliarder av forskningskroner deles ut gjennom slike søknadsprosesser. Resultatet av disse prosessene bestemmer ikke bare hva det skal forskes på, men også karrierene til forskerne. Da er det avgjørende at vi er åpne om svakhetene i fordelingsprosessene og jobber hardt med å forbedre dem.