Den som prövat att analysera forskningsdata torde snabbt ha insett att det finns många olika val att göra. Forskaren behöver fatta en mängd beslut, exempelvis vilka variabler som ska undersökas, vilka observationer som ska inkluderas, hur en statistisk modell ska konstrueras och vilka kriterier som ska användas för att dra en viss slutsats. Friheten att använda olika analysstrategier gör att resultaten kan variera när olika forskare använder samma data för att testa samma hypotes [1].

Ett exempel på sådan variation är när tidskriften Surgery inom ett par månader publicerade två olika artiklar som undersökte samma fråga med samma data: huruvida en engångspåse (»retrieval bag«) minskade infektionsrisken vid laparoskopisk appendektomi. Båda artiklarna använde analysstrategier som föreföll fullt försvarbara, men de visade ändå olika resultat. Enligt den ena analysen minskade infektionsrisken [2], enligt den andra fanns en ökning som inte var statistiskt signifikant [3]. Analyserna i de båda artiklarna skilde sig med avseende på bland annat utfallsmått (endast intraabdominella abscesser respektive alla kirurgiska sårinfektioner), inklusionskriterier och variabler som användes som kovariat. 

Det analytiska rummet

Inom sannolikhetsteori betecknar utfallsrummet mängden av alla möjliga utfall vid ett slumpmässigt försök. Forskarens valmöjligheter vid dataanalys kan i analogi med detta begrepp sägas ge upphov till ett analytiskt rum, bestående av de möjliga vägar som forskaren kan ta genom de val som står till buds (Figur 1). Det är välkänt att om man utforskar det analytiska rummet tills man får ett resultat som av någon anledning är önskvärt, till exempel att det är statistiskt signifikant (ofta definierat som P < 0,05), och sedan rapporterar endast detta resultat, så uppstår en snedvridning (bias) [1]. Det finns många namn för detta, till exempel  »P-hackning« [4]. Denna typ av snedvridningar förekommer även i forskning som inte till sin natur är främst explorativ. Exempelvis har jämförelser mellan rapporterade kliniska prövningar och registreringar i prövningsregister visat att det är vanligt att utfallsmått bytts ut [5]. Utforskande av det analytiska rummet är delvis nödvändigt och behöver inte vara avsiktlig P-hackning. Forskare har dock starka incitament att visa positiva resultat för att kunna fortsätta sin verksamhet och göra karriär [6]. Även andra mekanismer kan ha betydelse, till exempel att sakkunniggranskare efterfrågar ytterligare analyser vid granskning av ett inskickat manuskript.

Ett sätt att bedöma det analytiska rummets omfattning och se hur resultaten kan variera är att göra ett stort antal analyser och rapportera alla. Detta har ibland kallats för »multiversell analys« [7] eller »effektvibration« [1]. Ett exempel är en metaanalys av randomiserade kontrollerade prövningar av naltrexon eller nalmefen jämfört med placebo vid alkoholberoende, som definierade 9 216 olika kombinationer av inklusionskriterier och modellspecifikationer och fann att 425 av dessa visade en statistiskt signifikant negativ effekt, 616 visade en statistiskt signifikant positiv effekt och resterande inte visade någon statistiskt signifikant skillnad mellan läkemedelsbehandling och placebo [8]. Här fanns alltså möjlighet att dra helt skilda slutsatser beroende på vilken väg som valdes genom det analytiska rummet. Det visar att utrymmet kan vara stort för att snedvrida resultaten genom P-hackning eller genom att analysstrategin anpassas i alltför hög grad till just de data som råkat observeras. I praktiken är det ofta svårt att utforska hela det analytiska rummet, eftersom det vanligen går att definiera fler alternativ än det är praktiskt möjligt att beräkna, och dessutom eftersom inte alla experter är överens om vilka analysstrategier som faktiskt är försvarbara.

Multipla analytiker – en ny metavetenskaplig metod

Ett annat sätt att se hur mycket av det analytiska rummet som utnyttjas av forskare i verkligheten är att låta ett antal forskare oberoende av varandra analysera samma data med samma frågeställning. Denna metod har kallats för »multipla analytiker« och kan användas för att uppskatta det analytiska rummets gränser, och variationen i resultat, avseende en viss fråga. Exempelvis har vi nyligen rapporterat en studie där 70 oberoende grupper analyserade samma data från ett experiment med funktionell magnetkamera­teknik [9]. Vi fann att alla 70 grupper hade en egen unik analysstrategi och att resultaten visade stor spridning när vi bad grupperna att rapportera huruvida 9 olika hypoteser kunde bekräftas. Ett relaterat projekt som vi för närvarande driver gör samma sak med data från experiment med elektroencefalografi (EEG) [10]. I denna typ av studier har de oberoende analytikerna vanligen inget incitament att dra en viss slutsats, utan metoden kan visa variationen på grund av att olika forskare fattar olika analytiska beslut.

Metoden med multipla analytiker är ett sätt att placera forskaren under mikroskopet. Den tillåter oss att studera forskares beteende under relativt naturalistiska förhållanden. Det blir möjligt att studera hur forskarens beteende påverkas av olika typer av information och kontextfaktorer. Denna typ av forskning är en viktig del av det tvärvetenskapliga fält som nu har börjat kallas för metavetenskap – kvantitativ forskning om forskningen själv. 

Åtgärder som kan motverka snedvridningar

Öppen delning av data och kod för analys gör det möjligt för andra att återanalysera data med olika antaganden och kontrollera hur känsliga resultaten är för analysstrategin [9]. Förhandsregistrering med en analysplan för exakt vilka hypoteser som ska testas och hur, innan data samlas in, är ett sätt för forskare att begränsa friheten att utforska analysrummet och för läsare av vetenskapliga rapporter att kunna bedöma i vilken utsträckning forskarna följde sin ursprungliga plan [11]. Förhandsregistrering förhindrar inte explorativa analyser eller nya upptäckter, men gör det tydligare vilka rapporterade analyser som är explorativa.

Registrering av kliniska prövningar har förekommit länge inom medicinsk forskning, men för att detta effektivt ska motverka P-hackning behöver registreringen dels ange exakt hur analyser ska genomföras, dels sedan följas när studien rapporteras (så att exempelvis huvudutfall inte byts ut). Men även om dessa metoder används framgångsrikt, är det viktigt att notera att osäkerhets­intervall från statistiska test (såsom konfidensintervall) ändå underskattar den totala osäkerheten: de avspeglar hur slumpen kan inverka på ett statistiskt estimat, inte omfattningen av det analytiska rummet. Detta kan användas som argument för striktare statistiska signifikanskriterier [12], eller för att använda multipla analytiker för att uppskatta hur stor denna osäkerhet är [13].

Förhandsregistrering lämpar sig väl för randomiserade prövningar och andra prospektiva studier som kan registreras innan data samlas in. För retrospektiva studier är detta svårare, och det är också i denna typ av studier det analytiska rummet kan förväntas vara störst. Registerforskning, exempelvis, ger vittgående möjligheter att välja mellan olika inklusionskriterier, utfallsvariabler och kontrollvariabler. Förhandsregistrering kan vara möjlig vid analys av befintliga data om forskaren inte redan utforskat dessa, men försvåras bland annat av att det kan vara svårt att förutse alla val som behöver göras i analysen. Här kan andra lösningar behövas, såsom syntetiska (simulerade) dataset med samma struktur som det verkliga data­setet men utan något systematiskt samband mellan olika variabler [14]. Forskaren kan då bestämma exakt vilka analyser som ska genomföras baserat på det syntetiska datasetet, och sedan genomförs dessa analyser i det faktiska datasetet av en oberoende part. Genom att använda strategier som dessa kan vi förstärka trovärdigheten och användbarheten hos rapporterad forskning.

Potentiella bindningar eller jävsförhållanden: Inga uppgivna.