Våren 2011 syntes notiser i Nature Medicine, Lancet Oncology och New England Journal of Medicine: en serie studier om tumörcellers genaktivitet som medel för att skräddarsy cellgiftsbehandling, skrivna av forskare vid välansedda Duke University i USA, återkal­lades [1-3]. Det hade inte gått att »återskapa vissa viktiga experiment«, och man erkände »korruption« av flera uppsättningar forskningsdata. Skandalen kom att hota hela universitetets anseende. Snarare än fusk rörde det sig om bristande forskningsrutiner av förbluffande omfattning [4, 5]. Databasens rubrikrad hade felaktigt kodats som data, vilket förskjutit ordningen. Gener vars uttryck aldrig hade mätts fanns med i data, och uppgifter om resistens och känslighet för kemoterapi hade förväxlats. Dessa och en rad andra misstag i datahanteringen och analyserna förvans­kade fynden, som initialt hade firats som en stor vetenskaplig framgång och föranlett flera kliniska prövnin­gar. Efterföljande långdragna rättsfall har kostat Duke University tiotals miljoner dollar i skadestånd.

Felaktigheterna uppdagades av bioinformatiker vid ett annat universitet efter en förnyad analys av offentligt tillgängliga originaldata [6]. Det var inte deras första erfarenhet av en vetenskaplig återvändsgränd. Samma forskare försökte några år tidigare validera resultaten bakom Ovacheck, ett screeningtest för ovarie­cancer [7] som författare från bland annat USA:s motsvarighet till Läke­medelsverket rapporterat om i topptidskrifter. Testets enastående precision visade sig förklaras av bland annat artefakter från provhanteringen, som inte standardiserats mellan kontroller och cancerfall [7]. Gemensamt för dessa högprofilerade fall är en orsakskedja mestadels bestående av misstag. Som granskarna noterade var de vanligaste felen enkla, såsom rad- eller kolumnförskjutningar [6]. Fallen rönte uppmärksamhet eftersom de indikerade djupgående problem med hur medicinsk forskning bedrivs. Om enkla fel passerar obemärkta genom hela forskningsprocessen på toppnivå, vad pågår då inom forskningen i stort, och hur kan situationen förbättras?

Replikationskrisen satte ljuset på tvivelaktig praxis

»Replikationskrisen« är ett namn på den trovärdighetskris som drabbat vetenskapen efter att en omfattande metaforskningslitteratur dokumenterat brister. En grundbult i forskningen är att fynd bör kunna återupprepas (Fakta 1). Det var därför alarmerande när läkemedelsföretaget Amgen år 2012 angav att enbart 6 av 53 banbrytande prekliniska studier kunde replikeras av deras forskare [8]. Försöken hade utförts i letandet efter molekylära mål för utvecklingen av cancerläkemedel, under konsultation av och tidvis samarbete med originalförfattarna. En författare ska ha medgett att man enbart rapporterat 1 av 6 genomförda experiment – det enda som var lyckosamt – eftersom det gav en »bättre story« [9]. Även liknande försök vid företaget Bayer visade att en minoritet av fynden var reproducerbara (14 av 67 studier) [10].

Frånvaron av bekräftande resultat verkar inte förklaras av triviala metodskillnader [11, 12]. Systematiska litteraturöversikter har kartlagt hur experiment ofta utförs med suboptimala metoder (till exempel  utan randomisering och maskering) och tenderar att rapportera överdrivna effekter [13, 14]. Den medicins­ka litteraturen har ett »överskott« på statistiskt signifikanta P-värden, särskilt strax under det vanliga gränsvärdet 0,05 [15-17], vilket tyder på en omfattande framselektion av slumpfynd hos både tidskrifter och forskare, men även manipulering. Problematiskt är även att bristfälliga metodbeskrivningar hindrar utomstående replikeringsförsök. När ett uppmärksammat projekt syftade till att återupprepa 193 inflytelserika experiment i cancerbiologi var inte ett enda av dem beskrivet i tillräcklig detalj för att upprepas [14]. En tredjedel av originalförfattarna svarade inte trots upprepade kontaktförsök eller avböjde att bistå. Under skandalen vid Duke University hade granskarna initialt tillgång till analysdata, men originalteamets data­delning och samarbetsvilja minskade när problemen upptäcktes. Även individuella forskare har vittnat om stora svårigheter att återupprepa andras studier, trots aktiva kontaktförsök, och att få kontrasterande fynd publicerade [18]. Den sammantagna bilden står i kont­rast till devisen att forskningen är självkorrigerande.

Tvivelaktig forskningspraxis kräver andra åtgärder 

Replikationskrisen har lett till tesen att utbredd tvivelaktig forskningspraxis (Fakta 2), som i de flesta fall inte är avsiktligt vilseledande, åsamkar vetenskapen som helhet värre skada än oredlighet. I USA är definitionen av forskningsintegritet under omdaning [19] genom att fokus flyttas allt mer från forskarens intentioner till resultatens trovärdighet. Vad är skillnaden i praktiken? Trots de slutgiltiga bevis som tidigt lades fram under Duke University-skandalen [20] var det först efter upptäckten av en oegentlighet i förstaförfattarens meritförteckning som effektiva åtgärder vidtogs, såsom avbrott av kliniska prövningar [5]. När skandalen briserat kommenterade universitetsledningen att inget granskningssystem kan ersätta tilliten till forskaren [4]. En modell där forskarens rykte och garantier tillåts ersätta oberoende utredningar är illa anpassad att hantera tvivelaktiga forskningsrutiner som fram­odlas i en komplex vetenskapskultur.

Anonyma enkäter bland forskare har visat att beteen­den i gränslandet mellan oavsiktliga misstag och uppsåtlig vilseledning är mycket vanliga, exempelvis genom selektiv rapportering av resultat baserat på en »magkänsla« som bekräftar den egna hypotesen [21]. En stor andel medicinska forskare verkar känna osäkerhet inför vad som utgör sunda metoder. Duke University reviderade senare sin preventiva plan för att skapa en miljö där oliktänkande uppmuntras, lämpliga datahanteringssystem används och biostatistiker involveras i metodbeslut [4].

Hur uppstår tvivelaktig forskningspraxis? Förklaringarna omfattar bland annat forskarutbildningar som ger bristande kunskap om design och statistik, publiceringskulturer som lägger större vikt på nyhetsvärde än felkontroll, incitamentsystem som premierar hög produktivitet utan ansvar för om resultaten är sanna eller inte och hierarkiska strukturer med intressekonflikter [22].

Reproducerbarhetsnätverk en lovande strategi

Efter skandalen har Duke University utvecklat ett av USA:s mest ambitiösa program för att stärka vetenskaplig reproducerbarhet och stringens, med in­s­titutionsomfattande kurser, diskussionsforum för forskargrupper och ett nytt visselblåsarsystem riktat till juniora forskare [5]. Offentliga forskningsfinansiärer i USA, däribland National Institutes of Health, har infört ansökningskrav relaterade till vetenskaplig reproducerbarhet och stringens (Fakta 1). Tidskrifter som Nature har publicerat över 100 artiklar om replikationskrisen och infört checklistor för fullständig rapportering samt statistisk expertis i referentgranskningen. Även i Sverige har reportage och debattinlägg synts, om än sporadiskt [23, 24].

Det EU-sponsrade projektet »Standard operating procedures for research integrity« har sammanställt material som kan underlätta för universitet och finansiärer att strukturera sin reformverksamhet (www.sops4ri.eu) [25]. Under arbetet identifierades flera exempel från europeiska universitet på innovativ verksamhet för att stärka forskningens integritet. Dessa var dock spridda skurar utan en sammanhållen struktur [25]. Oss veterligen följer även det lilla antalet svenska initiativ samma mönster [26-28]. Ett mer troligt framgångskoncept är koordinerade insatser med utbildningar såsom workshoppar i öppen vetenskap, resurser såsom datahanteringsstöd, användarvänliga verktyg såsom »Experimental design assistant« [29], anpassade regelverk åtföljt av granskning och återkoppling, karriärstegar med mindre fokus på publikationssiffror och en gemensam förståelse kring vikten av vetenskaplig reproducerbarhet och stringens. Här leder Storbritannien ligan, med åtskilliga landsomfattande utredningar om forskningskulturen och ett aktivt »reproducerbarhetsnätverk« (reproducibility network). Sedan 2019 har nätverket skapat noder i över 50 universitet samt samarbeten med finansiärer och forskningsförlag. Reproducerbarhetsnätverkets idé är bland annat att stödja en förändring inifrån själva forskarskrået genom att samordna gräsrotsrörelser som i sin tur kan driva på förnyade arbetssätt hos exempelvis finansiärer och förläggare. Liknande nätverk i Sverige (www.swern.org), Danmark, Norge och Finland har tagit sina första steg på initiativ av engagerade forskare, medan andra parter ännu visar ett ljumt intresse. »Självrannsakan ligger i luften«, kommenterar den brittiske metaforskaren Marcus Munafò [30]. De närmaste åren kommer att utvisa om svenska universitet, finansiärer, lagstiftare och medicinska forskare tar chansen att lära sig av andras kostsamma misstag.

Läs även: författarintervjun med Cathrine Axfors

Potentiella bindningar eller jävsförhållanden: Inga uppgivna.

Cathrine Axfors postdokstipendium från Knut och Alice Wallenbergs stiftelse finansierade detta arbete.

Fakta 1. Vetenskaplig reproducerbarhet och stringens [31, 32]

  • Reproducerbarhet av metoder innebär möjligheten att exakt återupprepa en studie eller ett experiment baserat på tillgänglig metodbeskrivning.
  • Reproducerbarhet av resultat innebär att upprepning av en studie eller ett experiment leder till resultat samstämmiga med originalet. Detta kallas även replikerbarhet.
  • Vetenskaplig stringens (rigor) innebär att experimentell design, metodik, analys, tolkning och resultatrapportering utförs på ett sätt som minimerar snedvridning och bias.

Fakta 2. Tvivelaktig forskningspraxis [33, 19]

  • Tvivelaktig forskningspraxis (questionable research practices) är beteenden som faller utanför oredlighet, men som är problematiska eftersom de kan snedvrida forskningsresultat. Följande är några exempel:
  • Att fatta beslut om ytterligare insamling av data efter att ha testat om resultaten är statistiskt signifikanta eller inte.
  • Att utesluta datapunkter baserat på en »magkänsla« om att de är felaktiga eller efter att ha undersökt hur resultatet påverkas.
  • Att avrunda ett P-värde så att resultatet blir statistiskt signifikant (t ex rapportera att ett P-värde på 0,053 är <0,05).
  • Att inte rapportera samtliga utfallsmått.
  • Att enbart rapportera de experiment som »fungerade« och inte andra.
  • Att rapportera ett explorativt fynd som om det funnits en hypotes om det från början.
  • Att använda en databas för att testa många olika samband och enbart rapportera dem som visade statistiskt signifikanta resultat.