Vi har under många år undervisat i medicinsk statistik och metodgranskat manuskript för vetenskapliga tidskrifter. Våra erfarenheter gör att vi ifrågasätter om den traditionella forskarutbildningen i medicinsk statistik verkligen har rätt inriktning. Vi anser att en omprövning bör göras och att stora förbättringar kan åstadkommas med små insatser, inte bara för medicinsk statistik utan för medicinsk forskning i sin helhet.
Det är vanligt att medicinska forskningsrapporter, även sådana som publiceras i väl ansedda tidskrifter som Nature och BMJ, innehåller många felaktiga statistiska beräkningar [1].
Det är också vanligt att även de mest grundläggande statistiska principer missförstås. Det har till exempel visats i systematiska granskningar [2-3] att 32 av 39 publicerade forskningsrappor-ter (82 procent) från fertilitetsförsök och 60 av 143 ortopediska forskningsrapporter (42 procent) innehåller analysenhetsfel, det vill säga upprepade mätningar på en och samma patient har analyserats som om de kom från olika patienter.
Enligt vår egen erfarenhet redovisas i både manuskript och publicerade artiklar ofta också andra allvarliga och systematiska missförstånd. Här är några vanligt förekommande exempel beträffande hypotesprövning.
a) Observerade effekter eller skillnader testas för att avgöra om skillnaderna »finns« eller inte. Långtgående slutsatser baseras ofta på »there was no difference«.
Misstag: Hypotesprövningen gäller egenskaperna i den population ur vilken observerade data antags ha dragits, inte observerade data i sig. Dessutom är icke-signifikanta P-värden inte bevis på likhet eftersom »absence of evidence is not evidence of absence« [4].
b) Så kallad baseline-obalans i randomiserade studier testas för att undersöka balansen i randomiserade grupper.
Misstag: Randomisering är en metod att förhindra systematisk, inte slumpmässig, obalans mellan behandlingsgrupper [5].
c) Baseline-obalans i observationsstudier testas för att avgöra vilka vilseledande bakgrundsfaktorer (confounding factors) som skattade effekter eller gruppskillnader behöver justeras för.
Misstag: Justering för bakgrundsfaktorer kan behövas oavsett statistisk signifikans [6].
d) Dos–responseffekter testas för att identifiera den minsta statistiskt signifikanta dosen.
Misstag: Den minsta kliniskt signifikanta dosen kan vara biologiskt intressant, men den minsta statistiskt signifikanta dosen avspeglar förhållanden som rör studiedesign, till exempel stickprovsstorlek.
Inklusion av sådana test i en rapport visar att författaren inte förstår att testerna gäller egenskaper i en abstrakt population, inte i ett observerat stickprov, eller att författaren inte inser att statistisk och klinisk signifikans är två helt olika saker.
Hypotestestning och P-värde är hjälpmedel för att dra rationella slutsatser av stickprov, men används ofta som ett irrationellt universalkriterium. Liksom andra medicinskt statistiska missförstånd kan detta lätt vilseleda forskaren och föra honom eller henne på villovägar.
Medicinsk statistik presenteras i kurskataloger ofta som ett ämne vilket som helst. Vi anser att det är ogenomtänkt och olyckligt. Till skillnad från andra ämnen är nämligen kunskaper i statistik erforderliga i alla studier där urvalsproblem förekommer, det vill säga alla studier på patienter, försöksdjur och cellodlingar.
Statistisk analys är alltså en förutsättning för rationell tolkning av observationer i grupper av individer. Biokemister, hälsoekonomer, sociologer och genusvetare har därför lika stort behov av att förstå statistisk metodik som kirurger, medicinare, onkologer och patologer. Tyvärr är inte alla medvetna om detta.
En viktig orsak till de missförhållanden som råder i dag kan vara att utbildningen i medicinsk statistik har fått en alltför ensidig inriktning på praktisk beräkning av P-värde, och alltför liten inriktning på statistikteori och på statistiska tillämpningars kopplingar till försöksuppläggning eller studiedesign.
En möjlig förklaring till detta kan vara att utbildningen under lång tid dominerats av lärare som saknat adekvat utbildning och erfarenhet. Det kan till exempel vara medicinare, farmakologer, informatiker, men även statistiker som saknat tillräckliga insikter i, och erfarenhet av, medicinsk-statistiska tillämpningsproblem.
Vi har försökt kartlägga de grundläggande kurserna i medicinsk statistik inom ramen för medicinsk forskarutbildning i Sverige under vårterminen 2009. Kartläggningen exkluderar utbildning i bioinformatik och metodstatistisk utbildning för studerande med annan inriktning än medicin, till exempel vårdforskning och vid den biostatistiska institutionen i Örebro.
De 8 identifierade kurserna är heterogena i många avseenden (Tabell 1). Antalet kurspoäng är till exempel tre gånger större i Uppsala än i Lund, och Umeå har ytterligare ett halvt poäng. Karolinska institutet avviker dessutom genom att vara det enda universitetet utan obligatorisk statistikkurs. Gemensamt är dock att undervisningstiden är mycket kort och att räkneövningar med dator har en central plats.
Att lära sig förstå statistiska metoder, inse kopplingar mellan studiedesign och analys och att hantera konsekvenser av praktiska problem i olika forskningssituationer är en långvarig process som inte hinns med på några enstaka veckor. Internationellt ställs vanligen krav på masterexamen (5 års heltidsstudier) för personer som vill arbeta professionellt inom det medicinsk-statistiska området.
Det är alltså knappast kontroversiellt att hävda att de nuvarande kurserna inom forskarutbildningen är alltför korta för att kunna ge en gedigen statistikutbildning.
Å andra sidan kan man kanske argumentera för att medicinska forskare inte behöver ha en generell statistikutbildning, att var och en har ett mycket snävare arbetsfält än vad en statistiker behöver kunna röra sig inom.
Detta kan kanske vara sant om man ser till vilka beräkningsmetoder som används men att bara lära sig beräkningsmetoder och inte de teoretiska grunderna är, som tidigare påpekats, inte meningsfullt.
Vi anser att en ny målsättning för statistikutbildningen bör definieras. Den bör ge grundförutsättningar att förstå och kunna diskutera urvalsproblem på ett rationellt sätt, inte enbart hjälpa kursdeltagarna fylla upplevda, men inte alltid verkliga, behov av P-värdesredovisning.
En sådan inrikting på undervisningen skulle i sin tur bana väg för ett bättre utnyttjande av alternativa statistiska metoder som intervallestimering, och till bättre försöksuppläggningar, förnuftigare tolkning av resultat, färre felaktiga slutsatser och ett effektivare utnyttjande av forskningsresurser.
Vi tror att kurserna skulle lämpa sig väl för problembaserad inlärning och med fördel kunna behandlas utifrån ett integrerat forskningsmetodologiskt perspektiv i enlighet med den undervisningsmodell som utvecklats i Umeå.
Förståelse för urvalsproblem är centralt, både för dem som läser och för dem som skriver vetenskapliga rapporter. Ett större utbud av speciella påbyggnadskurser, som Högskoleverket föreslår i sin rapport [7], blir till gagn för medicinsk forskning först när en grundläggande problemförståelse föreligger. Det är här den obligatoriska delen av forskarutbildningen har en viktig funktion att fylla.
*
Potentiella bindningar eller jävsförhållanden: Inga uppgivna.