Juks, resultatfisking og overforenkling: P-verdien får skulda for mykje, men utvegen er ikkje enkel.

I 2019 publiserte tidsskriftet Nature eit opprop frå meir enn 800 forskarar som forlangte at forskarar må slutte med å dra enkle konklusjonar på bakgrunn av den såkalla p-verdien. Oppropet var det førebels siste i ein hundre år lang protest mot misbruk av p-verdiar og tilhøyrande påstandar om statistisk signifikans.

Kva har p-verdien gjort for å fortene så mykje kritikk, og har kritikken ført til noko?

Langvarig kritikk

I seg sjølv burde ikkje p-verdien by på så store problem. Den er ein statistisk test på kor ofte du lyt rekne med å sjå ein slik effekt som du ser i datamaterialet ditt, sjølv om effekten i realiteten ikkje finst (sjå ramme).

– Reint matematisk er ikkje p-verdien så vanskeleg å forstå, men i den augneblinken du byrjar tenkje over kva det har å seie for forskingsspørsmåla dine og kva det seier om verda rundt deg, blir det annleis, seier Hans Petter Kjæstad, førsteamanuensis ved NMBU Veterinærhøgskulen.

Han fatta interesse for kontroversane kring p-verdien og signifikanstesting då han ein gong snubla over boka The cult of statistical significance av Stephen T. Ziliak og Deirdre N. McCloskey, utgitt i 2008.

– Det er lett å tru at ein signifikant p-verdi betyr at vi har funne noko veldig sant og viktig, men det seier ikkje p-verdien, seier Hans Petter Kjæstad ved NMBU Veterinærhøgskulen.. Foto: Erik Norrud

P-verdien og rolla den spelar i hypotesetesting har vore med oss sidan genetikaren og statistikaren (og rasehygienikaren) Ronald A. Fisher populariserte den til bruk i eksperimentell forsking i boka si Statistical Methods for Research Workers, som kom ut i 1925. Like lenge har p-verdien vore utsett for kritikk. Samtidig som den er blitt stadig meir utbreidd.

Les også: Høyt press om å publisere øker sannsynligheten for forskningsjuks

Signifikant eller ikkje

Sjølv vart Kjæstad så interessert at han for eit par år sidan hadde eit (mykje lest) innlegg i Forskerforum, med tittelen «Skrot p-verdiene, forskere!»

Tittelen var rett nok sett på spissen.

– Vi treng p-verdien, men vi må skrote oppfatninga av signifikans som noko enten-eller, seier han.

Det som gjerne skjer, er at ein nokså tilfeldig p-verdi – ofte p=0,05, som igjen er ein arv frå Fisher og tida då ein gjorde slike analysar ved hjelp av matematiske tabellar – blir brukt som grense. Er p-verdien lågare enn 0,05, er resultatet ditt «statistisk signifikant» (for meir forklåring: sjå ramma).

– Debatten om p-verdiar manglar nye argument, men vonleg er fleire blitt merksame på *faren for misbruk, seier Lars Holden. Foto: Erik Norrud*

«Signifikant» kan også høyrest ut som «viktig», og slik blir det ofte brukt. Men p-verdien seier ingenting om resultatet er viktig.

Likevel fører skiljet mellom signifikant og ikkje-signifikant til at forskarar gjerne vil oppnå ein p-verdi lågare enn 0,05. Og det er dokumentert at studiar som rapporterer høgare p-verdiar, i mindre grad blir publiserte.

Dagleg misbruk

– Det stemmer nok at ein har vanskar med å få publisert studiar der p-verdiane er høge. Samtidig trur eg den faren er litt overdriven i diskusjonane om p-verdien, seier Lars Holden, administrerande direktør i Norsk Regnesentral (NR). NR er eit oppdragsforskingsinstitutt og gjer statistiske analysar på problemstillingar frå mellom anna helsefag, bank og finans, industri og energi.

Ein kan knapt laste tidsskrifta for å prioritere nyhende, meiner han.

– Det er heilt naturleg at studiar som ikkje har funne noko, ikkje får store oppslag. Sjølvsagt blir forsking litt skeivrepresentert, men det er ikkje realistisk å rapportere om absolutt alt. Eg trur ikkje dét er den dominerande feilen.

Problemet, meiner han, ligg heller i den daglege, uforsiktige omgangen med p-verdien: I mangel på kompetanse, på refleksjon, eller i direkte misbruk.

Medisinske konsekvensar

Det er innan medisin at p-verdien spelar størst rolle, fortel Holden. Det er fordi medisinarar driv mykje med klassisk hypotesetesting, der ein typisk hypotese kan vere at denne medisinen eller behandlinga ikkje har nokon effekt.

– P-verdien og omgrepa knytt til hypotesetesting er ikkje veldig kompliserte, men tydelegvis kompliserte nok til at mange misforstår og blir freista til å trekke sterkare konklusjonar enn det er grunnlag for, seier han.

Men heller ikkje Holden meiner at løysinga er, som nokre har teke til orde for, å kvitte oss heilt med p-verdien.

– Eg har litt vanskeleg for å ta det framlegget alvorleg, for ingen har funne noko alternativ. Den einaste måten vi har for å finne ut om ein medisin mot koronavirus har effekt, er å teste hypotesar og finne p-verdiar.

Det ein bør gjere, meiner også han, er å slutte å bruke p-verdien som eit anten-eller, og heller gje ei skikkeleg drøfting av omstenda rundt talet ein kjem fram til.

Les også: Carl I. Hagen ber om at Røttingen granskes for forskningsfusk

Fiskar etter resultat

Det er Carl Henrik Knutsen, professor i statsvitskap ved Universitetet i Oslo (UiO), samd i.

– Det kan vere veldig skarpe frontar. Mange har klare og nærast ideologiske meiningar om p-verdiar bør brukast eller ikkje, seier han.

– Sjølv vil eg seie dei er eit potensielt nyttig verktøy for å kommunisere uvisse kring funn på ein enkel måte. Talet ber på mykje informasjon om kor usikre resultata dine er. Det likar eg.

Knutsen trur mykje av kontroversane stammar frå den overdrivne vekta på femprosentgrensa. Det kan føre til at det blir viktigare å oppnå p-verdiar under fem prosent, enn å drøfte kva resultatet ditt eigentleg fortel.

– Og då opnar du jo opp for p-hacking.

P-hacking, p-fisking eller signifikansjakt er det som skjer når analysen din i første omgang ikkje gav publiseringsverdige p-verdiar, og du byrjar – medvite eller ikkje – å leite etter andre samanhengar som kan spytte ut den ettertrakta p<0,05, utan å opplyse om at du har endra på føresetnadene dine undervegs.

Knutsen underviser i statistiske metodar og meiner det er viktig at studentane kjenner fallgruvene i statistikken heilt frå bachelornivå. For å kunne lese artiklar, må dei vere kjende med hypotesetesting og signifikansnivå, men dei må også vite at uvisse ikkje er noko anten-eller, men finst i ulik grad.

– I samfunnsvitskap er det så mange måtar å sette opp den statistiske modellen på, så ein lyt vere forsiktig med at ein ikkje vel den eine måten som gjev akkurat det resultatet ein ønskjer seg, seier han.

Les også: Undersøkelse: 40 prosent av forskerne innrømmer «diskutable» handlinge

Den mistenkelege p=0,049

Alt tyder likevel på at p-fisking er utbreidd. Det er ein av grunnane til at stadig fleire tek til orde for å slutte å bruke omgrepa signifikant/ikkje signifikant og heller drøfte skikkeleg kva samanheng p-verdien ein rapporterer, står i. Det nemnde oppropet i Nature er berre det siste i ei lang rekkje. The American Statistical Society kom med ei fråsegn som åtvara mot uvettig p-verdibruk i 2016 (sjå faktaboks), og følgde opp med eit spesialnummer dedikert til draumen om «ei verd bortanfor p<0,05» i 2019.

Fakta

I 2016 publiserte the American Statistical Association ei fråsegn om bruk av p-verdiar, som fekk mykje merksemd. Den seier mellom anna:
• P-verdien seier ikkje noko om sannsynet for at hypotesen ein studerer, er sann eller ikkje
• Vitskaplege konklusjonar eller politikkutforming bør aldri kvile berre på om p-verdien er under ein viss terskel
• Solide vitskaplege konklusjonar kan ikkje trekkast med mindre det minst er gjort kjent kor mange og kva type analysar som vart utført, og korleis dei rapporterte p-verdiane vart valde ut
• Ein p-verdi, eller statistisk signifikans, måler ikkje kor stor effekten er eller kor viktig resultatet er
• I seg sjølv gjev p-verdien berre avgrensa informasjon om hypotesen ein studerer

Det treng ikkje vere så vanskeleg å gjette seg til om nokon har drive med p-hacking, fortel Jonas Moss, stipendiat ved Matematisk institutt ved Universitetet i Oslo (UiO). I november i fjor leverte han doktorgraden, der han mellom anna utvikla ein statistisk modell for å korrigere for p-hacking. P-verdiane kan i seg sjølv hinte om det.

– Dersom du les ein vitskapleg artikkel, og p-verdiane ligg rett under 0,05-grensa, så er sjansen for at p-hacking har skjedd, veldig stor, seier han.

– Som oftast er jo ein p-verdi under fem prosent eit vilkår for at artikkelen i det heile er blitt publisert. Men dersom effekten som er rapportert, er sann, vil p-verdien helst vere mykje mindre enn 0,05. Samstundes er det ei sterk skulding å seie at nokon driv med p-hacking. Så ein held gjerne kjeft.

Moss har teke for seg eit datasett med p-verdiar frå artiklar i psykologi, og estimerer at desse p-verdiane ikkje er sannsynlege med mindre p-hacking og/eller publiseringsskeivheit ligg bakom. No jobbar han med ein metode som vonleg kan skilje mellom dei to effektane.

Det var den såkalla replikasjonskrisa i psykologien som førte han inn i prosjektet.

– Eg har likt å lese populærvitskapleg psykologi sidan eg var i tenåra. Men dei siste ti åra har det vore store diskusjonar om at mange berømte resultat frå psykologisk forsking ikkje let seg reprodusere. Det var nokså kjipt å få høyre at mange av tinga eg tykte var spennande, kanskje ikkje stemte likevel. Eg byrja lure på om vi eigentleg kan stole på det psykologiforskinga fortel oss, eller om alt berre er tull.

Les også: De avslørte at forskeren hadde diktet opp eksperimentet. Da startet kampen for å bli trodd.

– Fortel kva du vil måle

Særleg i psykologi og medisinske fag har mange prøvd å gjenskape resultat frå tidlegare forsking utan å klare det. Etablerte samanhengar har fordufta når eksperimenta vart utførde på nytt. Fleire årsaker spelar inn, men forskingsmetode og tolking av statistikk er ein stor del av debatten.

Difor stiller mange forskingsfinansierande organisasjonar no krav om førehandsregistrering av studiar. Ein internasjonal kampanje kalla AllTrials arbeider for at kravet skal gjelde alle medisinske studiar, og at alle resultat skal rapporterast slik at ein kan sjå kva som eigentleg er blitt gjort. I Noreg blir kampanjen fronta av stiftinga Dam, som deler ut midlar til helsearbeid, inkludert forsking.

– Når du førehandsregistrerer ein studie, fortel du heile verda kva du vil måle og korleis du vil måle det, seier Jan Ole Hesselberg, psykologspesialist og programsjef i stiftinga Dam. For tida tek han doktorgraden ved Psykologisk institutt ved UiO.

– Kanskje du seier at du skal måle nivået av depresjon med eit bestemt skjema, og sjå på kor stor nedgang det er i depresjonsnivået etter eit visst tiltak. Men så byter du til å måle aktivitetsnivå undervegs. Er studien registrert, kan alle sjå at du har endra på studien og spørje kvifor. Det kan jo vere gode grunnar.

Men det store problemet, hevdar han, er at slikt blir gjort i massivt omfang. Då aukar sjansen sterkt for at ein får signifikante p-verdiar, og det undergrev heile poenget med signifikanstesting.

– Byrjar du å gjere fleire testar, er det som å kaste terningane fleire gonger. Når ein ser på resultatet, så er det relevant å vite om du kasta terningane ein gong eller ti gonger.

Les også: – Det er neppe lurt å skrote p-verdiene i statistiske analyse

Mange grunnar til kritikk

Takka vere eit EU-direktiv skal alle studiar av legemidlar førehandsregistrerast.

– Men ei anna utfordring er at studiar som blir utført, ikkje blir rapporterte i etterkant. Førehandsregistrering hjelper mot p-fisking fordi ein kan kontrollere om forskaren har endra på utfallsmålet undervegs i studien, men manglande publisering leier til skeivfordeling i resultatrapporteringa. Begge delar fører til forvrenging, seier han.

Stiftinga Dam jobbar med ein rapport som kjem til å vise at svært mange av studiane som er førehandsregistrerte i EU-databasen, ikkje har noka form for sluttrapportering, ikkje eingong ei lita oppdatering i databasen.

– For ein forskingsfinansiør er det sjølvsagt frustrerande, for det gjer at ein ikkje kan vite om pengane ein har løyvd til forsking, har nokon effekt.

Førehandsregistrering av studiar kan vere ein god måte å forhindre generell metodeslendrian på, meiner Hesselberg.

– Mange av resultata frå psykologistudiar som vart kjende på 1990- og 2000-talet, hadde oppstått undervegs medan ein grov i datamaterialet, og det er jo ein katastrofal måte å drive forsking på. Registrering gjer at du må tenke skikkeleg gjennom prosjektet før du startar.

Samtidig minner han om at uetisk graving i datamateriale ikkje er isolert til p-verdiar.

– Kritikken mot sjølve bruken av p-verdiar går på at dei blir tolka feil både av forskarar og lekfolk. At dei blir tolka som ein dikotomi, der noko anten er statistisk signifikant eller ikkje – som er ei heilt tullete tolking. Og at grensa på 0,05 er tilfeldig.

I staden foreslår kritikarane andre statistiske metodar eller praksisar, som kan løyse flokene.

– Men problema med p-hacking kan du også få med andre metodar. Alle statistiske metodar opnar for at ein kan grave etter ønska resultat dersom ein ikkje har forplikta seg på førehand, seier Hesselberg.

Ønskjer meir refleksjon

Kjæstad ved Veterinærhøgskulen meiner diskusjonen om p-verdiar og signifikans grip inn i korleis ein formidlar kva forskinga eigentleg fortel.

– Kva seier desse tala om verda ikring meg? Det er ikkje sagt med ein p-verdi og eit avsnitt i eit vitskapleg tidsskrift. Eg vonar det blir meir rom for eksplisitt diskusjon av slikt i dei vitskaplege publikasjonane.

Forskarar nyttar nemleg ofte p-verdiar i analysar som ikkje eigentleg er hypotesetesting i streng forstand. Det er éin ting å utforske ein ny og forbløffande samanheng, der ein ikkje kan bruke tidlegare forsking som peikepinn og ikkje veit noko om moglege årsakssamanhengar. Då har ein ikkje anna val enn å teste på nytt og på nytt og halde auge med p-verdiane for å sjekke om samanhengen er sann eller falsk.

– Men mykje av kvardagsforskinga fungerer jo ikkje slik. Oftast veit vi at det finst ein effekt, og vi er interesserte i å utforske storleiken på den effekten. Då kan p-verdien seie noko om kor sikkert resultatet er.

Det forskarar aldri bør gjere, er å sjå vekk frå ein stor effekt – til dømes at pasientane som fekk medisinen, i gjennomsnitt levde mykje lenger enn dei som ikkje fekk medisin – fordi variasjonen var så stor at p-verdien bikka over 0,5.

– Å då konkludere med at effekten ikkje er viktig berre fordi p-verdien hamna over terskelen, er livsfarleg, seier Kjæstad.

– Alle må vere del av løysinga

Holden ved Norsk Regnesentral har inntrykk av at p-verdidebatten har stogga litt opp, nettopp fordi ingen har noko klart alternativ å tilby.

– Det var eit heitt tema for eit par år sidan, med profilerte artiklar og fråsegna frå ASA. Men så er det ikkje blitt tilført nye argument sidan, og eg kan ikkje sjå at det har skjedd noka endring i praksis heller.

For ingenting tyder på at forskarar er blitt meir edruelege i sin omgang med p-verdiar som følgje av debatten. Tvert om er p-verdien meir brukt enn nokon gong.

– Er løysinga at alle må skjerpe seg?

– Det er nærliggjande å tenkje slik. At ein skjerpar seg når ein skriv, men også at vi som lesarar må vere kritiske. Kanskje vitskaplege tidsskrift kan stille krav om at p-verdiar ikkje skal brukast åleine, at ein også må oppgje konfidensintervall og drøfte storleiken på effekten.

Konfidensintervall er ein måte å oppgje feilmarginen i eit resultat på.

Samstundes meiner han at vi må kunne lite såpass på forskarsamfunnet, at dersom nokon rapporterer eit oppsiktsvekkande resultat, vil andre sjekke det.

– Dersom resultatet er uinteressant, er det kanskje mindre sannsynleg at det blir sjekka, men det er også mindre farleg. Men å hevde at nokon tek feil, vil alltid vere publiseringsverdig.

(faktaboks)

I 2016 publiserte the American Statistical Association ei fråsegn om bruk av p-verdiar, som fekk mykje merksemd. Den seier mellom anna:

P-verdien seier ikkje noko om sannsynet for at hypotesen ein studerer, er sann eller ikkje
Vitskaplege konklusjonar eller politikkutforming bør aldri kvile berre på om p-verdien er under ein viss terskel
Solide vitskaplege konklusjonar kan ikkje trekkast med mindre det minst er gjort kjent kor mange og kva type analysar som vart utført, og korleis dei rapporterte p-verdiane vart valde ut
Ein p-verdi, eller statistisk signifikans, måler ikkje kor stor effekten er eller kor viktig resultatet er
I seg sjølv gjev p-verdien berre avgrensa informasjon om hypotesen ein studerer

– Kva nytte har du av p-verdien forskinga di?

Anne Elise Eggen, professor i farmakoepidemiologi, UiT –Noregs arktiske universitet

– Med våre store datamateriale er det lett å få signifikante p-verdiar, difor brukar eg heller konfidensintervall* som gjev meir informasjon. Det viktige er å ha ei meining om korleis ting heng i hop, så ein kan tolke resultata.

Karin Dyrstad, førsteamanuensis i statsvitskap, NTNU

– P-verdi er lettvint og eg nyttar han til å teste hypotesar. På mitt felt er det også standard å oppgje konfidensintervall*. P-verdien er lite debattert. Nokre førehandsregistrerer studiar, men det er ikkje utbreidd.

Kristin Aarland, forskar II i samfunnsøkonomi, Oslomet

– Eg jobbar mykje med effektevaluering for oppdragsgjevarar som vil vite om a fører til b, og då er p-verdien sentral. I fagmiljøet diskuterer vi ikkje misbruk, men heller modellval og kva føresetnader vi legg til grunn.

*Konfidensintervall er ein måte å oppgje feilmarginen i eit resultat på.

Les også:

Skal vi snakke om plagiering?

Juks, resultatfisking og overforenkling: P-verdien får skulda for mykje, men utvegen er ikkje enkel.

Juks, resultatfisking og overforenkling: P-verdien får skulda for mykje, men utvegen er ikkje enkel.

P-verdien seier noko om kor sikkert eit forskingsfunn er, men misbruk og misforståingar florerer. Er løysinga å slutte å bruke p-verdiar?

Langvarig kritikk

Signifikant eller ikkje

Dagleg misbruk

Medisinske konsekvensar

Fiskar etter resultat

Den mistenkelege p=0,049

– Fortel kva du vil måle

Mange grunnar til kritikk

Ønskjer meir refleksjon

– Alle må vere del av løysinga

– Kva nytte har du av p-verdien forskinga di?

Les også:

Ingen kur for statistikk-angst

Så mange flytter fra Norge etter doktorgraden

Regjeringen vil omorganisere helseforvaltningen. Resultatet kan bli oppsplitting av fagmiljøer.

Slik har statens bevilgninger til forskning utviklet seg

Stadig flere jobber med forskning

Åtte prosent skrev avhandlingen på norsk