Statistisk signifikans

Feil bruk av statistikk i klinisk forskning kan gi behandling på galt grunnlag

Av Anders Nordahl-Hansen, professor i spesialpedagogikk, Avdeling for lærerutdanning, Høgskolen i Østfold

Publisert 19. november 2018

Mye statistikk som benyttes i behandlingsforskning gir ikke korrekt informasjon om effekten av tiltak. I verste fall kan pasienter få feil behandling, skriver Anders Nordahl-Hansen.

I samarbeid med forskerkollegaer fra Universitetet i Tromsø, Yale og University of Washington viser vi i en nylig publiserte studie i tidsskriftet Psychiatry Research til utbredte misforståelser og misbruk av statistikk innen helse- og samfunnsvitenskapene.

Les mer:

Fakta

anders nordahl-hansen HiØf Anders Nordahl-Hansen Foto: HiØf

Forskere beregner ofte om resultatene fra undersøkelsen er «statistisk signifikante» ved hjelp av en såkalt p-verdi.

Det vil si hvor stor sannsynlighet det er for at det vi observerer i en analyse er en tilfeldig egenskap ved det utvalget vi studerer, heller enn å være en egenskap som gjelder for hele populasjonen.

 

Artikkelen «Enhancing the understanding of clinically meaningful results: A clinical research perspective» er åpent tilgjenglig for alle. 

Feil praksis over lang tid

Problemet har vært kjent for mange i flere tiår, og mannen som introduserte p-verdier, Ronald Fisher, har nok vridd seg i graven mang en gang over hvor formalisert bruken har blitt av denne litt tilfeldig satte «sannsynlighetsmarkøren», som ofte settes til 0.05. De siste årene har ting imidlertid bedret seg, men flere av vitenskapene befinner seg fortsatt i en slags krise der tidligere funn kan og bør stilles spørsmål ved.

Problemet er at statistikken som ofte brukes, og som gjerne blir tatt til inntekt for å belyse størrelser av effekt, faktisk ikke gjør det i det hele tatt.

Gjøres analysene på riktig måte, kan p-verdier være nyttig å rapportere. Det kan blant annet ligge mye viktig informasjon i p-verdier som blant annet sier noe om hvor godt designet til studiet er. Når analysene utføres på riktig måte, og spesielt akkompagnert med konfidensintervaller og effektstørrelser, som de fleste seriøse tidsskrifter i dag krever, er det enda bedre.

Likevel er det ikke mer enn to år siden American Statistical Association så seg nødt til å komme med en formell uttalelse på grunn av misbruk og misforståelser relatert til bruken av p-verdier. Problemet må derfor fortsatt adresseres selv om det for mange som er kjent med slik statistikk, virker som å slå inn åpne dører.

Spesielt bør det nevnes at siden det å rapportere p-verdier under 0.05 øker sjansene for publisering betraktelig har ført til mange tilfeller av såkalt «p-hacking» der man leter med lys og lykter i datasettene til man endelig har funnet «signifikans», bør analyseplaner utarbeides, og helst preregistreres og publiseres i forkant av gjennomføring av studiet for økt transparens.

Alternativer til klassisk signifikanstesting

I artikkelen vår presenterer vi mulige og mer passende statistiske alternativer til bruk i kliniske effektstudier. Disse statistiske alternativene adresserer den faktiske effekten av tiltak og er i så måte et mye bedre mål på om tiltak faktisk har fungert og hvor mye bedre et tiltak er framfor et annet.

Dersom man ønsker å gjøre studier for å undersøke effekten av to ulike behandlinger, er det viktig å sammenligne gruppene som mottok ulik behandling med statistikk som viser hvordan gruppene endret seg. Dette er avgjørende for hvordan man skal kunne vurdere effekten av behandling og tiltak.

Ofte benyttes effektmålet «Cohen’s d». Det gir et mål på gjennomsnittsforskjeller mellom to behandlingsgrupper, delt på antatt delt standardavvik mellom gruppene. Et problem er at Cohen’s d er ment til å sammenligne to grupper med normaldistribusjon og lik varians, noe som utvalgsmål ofte ikke tilfredsstiller.

Men andre alternativer er tilgjengelig og vi viser til blant annet «relative risk» som et slikt i vår artikkel. Relative Risk uttrykkes som et ratio-tall, som for eksempel kan vise til risikoen for at personer i kontrollgruppen får en sykdom kontra eksperimentgruppen. Dersom en eksperimentgruppe får medisin, og kontrollgruppen får placebo, som fører til en relativ risk skåre på 2.0, vil dette indikere at det er dobbelt så stor sannsynlighet for at personer i kontrollgruppe fortsatt har sykdommen sammenlignet med eksperimentgruppen. På slike data som har enten/eller og ja/nei utfall, altså binominale data, er relativ risk en mulighet som kan gir intuitiv klinisk mening.

Feilvurderingen kan få store konsekvenser

Mange tidsskrifter i dag har statistiske konsulenter i tillegg til mer fullstendig statistisk rapportering. Visse tidsskrifter har og begynt å kjøre alle manuskripter gjennom nyutviklede analyseprogrammer som «Statcheck» for å oppdage og luke ut statistiske feil og mangler. Likevel forekommer misbruk og misforståelser om hva p-verdier faktisk gir av informasjon, eller rettere sagt informasjon det ikke gir.

Mye av den undervisningen som gis studenter på alle nivåer henger også etter. Ofte legges større vekt på p-verdier og signifikanstesting, sammenlignet med mål på effektstørrelse og andre Bayesianske statistiske alternativer til tradisjonell frekventist statistikk.

Videre kan forskeres fremstilling av sine resultater som «statistisk signifikante» misforstås og tolkes av lesere av forskning som at tiltaket og behandlingen har bevist effekt. I en tid der forskningsartikler blir mer tilgjengelig for alle, bør resultater og spesielt slutninger som trekkes være mer edruelige, spesielt med tanke på hva et statistisk signifikant resultat faktisk innebærer.

  • Les også: