Sant eller falskt fynd?

Tillämpning av bayesianska principer kan förbättra bedömningen

Ulf Strömberg, professor, sektionen för yrkes- och miljömedicin, Lunds universitet, samt Yrkes- och miljömedicin, Universitetssjukhuset i Lund ulf.stromberg@med.lu.se

Jonas Björk, docent, Region Skånes kompetenscentrum för klinisk forskning, Universitetssjukhuset i Lund

Maria Feychting, professor, Institutet för miljömedicin, Karolinska institutet

Lars Alfredsson, professor, Institutet för miljömedicin, Karolinska institutet,samt Centrum för folkhälsa, Stockholms läns landsting

Anders Ahlbom, professor, Institutet för miljömedicin, Karolinska institutet, samt Centrum för folkhälsa, Stockholms läns landsting;
samtliga för Epinet http://www.epinet.se

Läs artikel som PDF

Läkartidningen 08/2007

Lakartidningen.se 2007-02-20

0 Kommentarer

Kommentera

Sammanfattat
Hur man skiljer sant från falskt i epidemiologiska studier där ett samband har hittats är en ständigt återkommande fråga.

Särskild aktualitet har detta problem när många analyser görs inom ramen för en och samma studie, exempelvis inom den molekylärgenetiska epidemiologin, där effekter av ett mycket stort antal genetiska varianter studeras.

Det är också ett relevant problem i studier där materialet bryts ner och man gör subgruppsanalyser.

Med två exempel från den epidemiologiska litteraturen som bakgrund ska vi diskutera hur metoder baserade på bayesianska principer kan användas för att bättre bedöma om ett fynd är sant eller falskt.

Hur man skiljer sant från falskt i epidemiologiska studier där ett statistiskt samband har hittats är en ständigt återkommande fråga. Vad som menas med att »statistiskt samband har hittats« kan visserligen bero på vilket statistisk metod som använts och även på hur resultaten uttolkas. Vidare kan en epidemiologisk studie ha metodologiska brister. Man kan heller inte bortse från slumpen; rena slumpvariationer kan också leda till samband. Ett statistiskt säkerställt, ofta kallat statistiskt signifikant, resultat från en enskild dataanalys är inte nödvändigtvis ett sant positivt fynd – en sådan konklusion kräver mer underlag, ofta från flera studier. Även utifrån resultat från en enskild studie kan det emellertid finnas behov av att försöka skilja ut slumpgenererade samband från reella samband. »Statistiskt säkerställda« resultat kan aldrig helt utesluta slumpmässiga samband. Problemet med slumpmässiga samband blir större om många sambandsanalyser görs inom ramen för en och samma studie, exempelvis inom den molekylärgenetiska epidemiologin, där effekter av ett mycket stort antal genetiska varianter studeras. Det är också ett relevant problem i studier där materialet bryts ner och man gör subgruppsanalyser.
Med två exempel från den epidemiologiska litteraturen som bakgrund ska vi diskutera hur metoder baserade på bayesianska principer kan användas för att bättre bedöma om ett fynd är sant eller falskt. Det centrala i vår framställning är hur inledande, ofta hypotesgenererande, resultat från epidemiologiska studier bör analyseras och värderas. Vi kommer även att beröra hur man kan värdera fynd när statistiska test snarare än skattningar av effektstorlekar är av primärt intresse.
Inom epidemiologisk forskning ökar efterfrågan på statistiska metoder inriktade mot dessa frågeställningar. Att lyfta fram och utveckla lättillgängliga metoder som ger lättolkade resultat i studier med multipla analyser är en angelägen uppgift.

Exempel ett: Subgruppsanalyser som gav intressant skörd
Reumatoid artrit (RA) är den vanligaste av de inflammatoriska reumatiska ledsjukdomarna och drabbar nästan en procent av befolkningen. Etiologin är i stort sett okänd.
I den så kallade EIRA-studien, en populationsbaserad fall–kontrollstudie, undersöks individ- och miljörelaterade orsaker till uppkomst av reumatoid artrit med samtidig tillgång till genetisk information. Nydebuterade fall av reumatoid artrit (18–70 år) och slumpvis valda kontroller i ett geografiskt definierat område identifieras och utfrågas. Fall och kontroller ombeds lämna blodprov för genetisk och serologisk analys.

Rökning fördubblar risken för viss form av RA. Enligt datamaterialet fördubblar rökning, den hittills viktigaste kända miljöfaktorn, risken att insjukna i reumatoid artrit. En första subgruppsanalys visade att effekten av rökning enbart påverkade risken att insjukna i en viss form av reumatoid artrit, så kallad anti-citrullinpositiv reumatoid artrit (dvs fall som uppvisar antikroppar mot citrullinerade proteiner) [1]. Ytterligare subgruppsanalyser visade att effekten av rökning var starkt knuten till den viktigaste hittills kända riskgenen för RA: HLA-DRB1 SE (*01, *04 och *10 alleler); betecknas med SE. Interaktionen mellan rökning och SE-gener analyserades därpå specifikt för de två serologiskt definierade subgrupperna av reumatoid artrit (anti-citrullinpositiv och anti-citrullinnegativ reumatoid artrit). Tabell I visar skattade relativa riskökningar för rökare jämfört med icke-rökare utan SE-gener. Exempelvis visar resultaten att det är 1,5 gånger högre risk för rökare att utveckla anti-citrullin positiv reumatoid artrit än för icke-rökare bland personer utan SE-gener. Det 95-procentiga konfidensintervallet (KI) omkring denna skattning, dvs 0,8–2,6, indikerar att man med 95 procents säkerhet kan ringa in den faktiska relativa risken att ligga någonstans mellan 0,8 och 2,5. Eftersom detta konfidensintervall spänner över såväl relativa risker under 1 (riskminskningar) som relativa risker över 1 (riskökningar) är den uppskattade relativa riskökningen på 1,5 inte statistiskt säkerställd. I tabellen framgår emellertid att en stark interaktion mellan rökning och SE-gener föreligger med avseende på risk att utveckla anti-citrullinpositiv reumatoid artrit. Däremot tycks inte rökning, oavsett förekomst av SE-gener, påverka risken för anti-citrullinnegativ reumatoid artrit.

Resultatvärdering med bayesianska principer. Är variationen i rökeffekt mellan subgrupperna verklig eller bara slumpvariation som uppstår när man göra multipla analyser? Vi ska nu visa hur bayesisanska principer kan utnyttjas för att värdera dessa resultat. Gemensamt för alla bayesianska tekniker är att man bygger in a priori-förväntningar om effektstorleken och att man väger ihop dessa a priori-förväntningar med insamlade data i de statistiska analyser som utförs. En extremt försiktig hållning är att anta a priori att alla effektstorlekar är lika troliga, dvs alla (såväl rimliga som orimliga) relativa risker avseende rökning och reumatoid artrit är lika troliga. Med denna hållning blir det i praktiken endast insamlade data som ligger till grund för bedömningen av rökningens effekt på risken att utveckla reumatoid artrit, med hänsyn tagen till typ av reumatoid artrit (anti-citrullinpositiv/-negativ) och SE-gener.
En något mindre försiktig ansats är empirisk Bayes (EB), som går ut på att man låter empiriska data forma a priori-förväntningen om effektens storlek [2, 3]. Har man som i vårt exempel observerat en risk för reumatoid artrit (anti-citrullinpositiv och -negativ sammantaget) som är två gånger högre bland rökare än bland icke-rökare är a priori-förväntningen enligt EB att risken är två gånger högre i alla subgrupper av rökare. I hypotesgenererande situationer är det ofta rimligt att göra den här typen av antaganden.
Beräkningsproceduren bakom EB är komplicerad och kräver datorprogram. Principen är emellertid enkel: den EB-korrigerade effektskattningen för en subgrupp bildas som ett vägt medelvärde av den observerade effekten i subgruppen och den genomsnittliga effekten som observerats i totalmaterialet. Resultatet blir att EB-skattningarna för de enskilda subgrupperna, i vårt exempel avseende reumatoid artrit (anti-citrullinpositiv eller -negativ) och SE-gener (utan, enkel kopia eller dubbel kopia) (totalt 6 subgrupper), flyttas närmare den överordnade effektuppskattningen i totalmaterialet, dvs en relativ risk på 2,0 (Tabell I). Hur mycket effektuppskattningen för en enskild subgrupp förflyttas beror på effektskattningens precision, vars storlek avspeglar sig i kvoten mellan konfidensintervallets övre och undre gräns. Uppskattningar för små subgrupper med stor variation i effekt kommer att förändras mer än för stora subgrupper med liten variation i effekt.
I vårt exempel uppvisar de ursprungliga relativa riskskattningarna ett tydligt mönster över subgrupperna och är samtidigt förhållandevis precisa jämfört med skattningarnas variation mellan subgrupperna, vilket medför marginella EB-korrigeringar. De EB-korrigerade resultaten visar således att variationen i effekt mellan subgrupperna är större än vad man skulle förvänta sig att erhålla av ren slump, vilket styrker fyndet att rökning i samverkan med SE-gener specifikt påverkar risken att insjukna i anti-citrullinpositiv reumatoid artrit.

Föreslagen mekanism förklarar rökningens effekt. Dessa fynd, tillsammans med observationerna att citrullinerade proteiner förekommer i celler från bronksköljvätska hos rökare men inte hos icke-rökare, och att personer med sådan förekomst har en starkt förhöjd risk att utveckla reumatoid artrit [4], har lett till att en möjlig mekanism för hur en serologiskt definierad subgrupp av reumatoid artrit uppstår har kunnat formuleras. Den föreslagna etiologiska modellen innebär att rökning inducerar en förändring i ett kroppseget protein, där en autoimmun reaktion därefter uppkommer hos individer med en viss genetisk disposition, och där denna autoimmuna reaktion bidrar till uppkomsten av reumatoid artrit. Modellen är relevant bara för den subgrupp av reumatoid artrit som definieras av närvaron av anti-citrullinantikroppar. Sammantaget illustrerar detta exempel värdet av subgruppsanalyser vid studier av etiologin hos komplexa sjukdomar, där kunskap a priori saknas om i vad mån en eller flera patogenetiska mekanismer är ansvariga för uppkomsten av olika subgrupper av sjukdomen. Empirisk Bayes (EB) är ett lämpligt statistiskt verktyg för att hantera den extra variation som multipla analyser genererar. Tillsammans med den biologiska förklaringsmodellen gör stabiliteten i de EB-korrigerade effektuppskattningarna det rimligt att dra slutsatsen att en reell interaktion hittats.

Exempel två: Subgruppsanalys som var slumpens skörd
Sambandet mellan extremt lågfrekventa magnetfält och risken att insjukna i bröstcancer har studerats utifrån hypotesen att exponeringen ökar risken för östrogenreceptorpositiv premenopausal bröstcancer [5, 6]. Hypotesen baserades på resultat från djurförsök och cellstudier och från tidigare epidemiologiska studier. Materialet var begränsat i storlek och gav statistiskt instabila resultat (breda konfidensintervall) i subgruppsanalyserna. Resultaten gick emellertid i hypotesens riktning både i analyser av magnetfältsexponering i bostaden och då yrkesmässig exponering studerades. Exempelvis fann man för exponering i bostaden en relativ risk på 1,0 (95 procents KI 0,5–2,2) då hela materialet analyserades utan hänsyn taget till känd östrogenreceptorstatus eller ålder vid diagnos, medan den relativa risken var 7,4 (95 procents KI 1,0–178,1) för östrogenreceptorpositiv bröstcancer bland kvinnor som var yngre än 50 år vid diagnos. Att man också fann liknande resultat för magnetfältsexponering i yrket stärkte hypotesen ytterligare. Data bedömdes dock inte som tillräckliga för att dra några säkra slutsatser.
När vi EB-korrigerade subgruppsanalyserna visade det sig att den anmärkningsvärda, men osäkra, relativa riskskattningen avseende exponering i bostaden för östrogenreceptorpositiv bröstcancer bland kvinnor 50 år sjönk från 7,4 till 1,5 (95 procents KI 0,2–13,3). Här leder EB-korrigeringen till en betydande dämpning av effekten i subgruppen eftersom den ursprungliga skattningen var mycket osäker – vilket avspeglade sig i det mycket breda konfidensintervallet omkring den ursprungliga relativa riskskattningen (7,4; 95 procents KI 1,0–178,1) – samtidigt som den genomsnittliga skattningen av effekten gällande exponering i bostaden, baserat på hela datamaterialet, inte visade någon förhöjd risk.
EB-resultatet kan tolkas som att den observerade variationen i subgruppsanalyserna inte är anmärkningsvärd jämfört med vad man skulle förvänta sig att erhålla av ren slump, något som avsevärt försvagar fyndet avseende östrogenreceptorpositiv bröstcancer bland kvinnor 50 år.
Hur gick det för den genererade hypotesen? En betydligt större, registerbaserad fall–kontrollstudie omfattande cirka 20000 bröstcancerfall och över 100000 kontroller genomfördes med förbättrad exponeringsskattning [7]. Det stora materialet gjorde att statistiskt stabila analyser kunde göras i alla de subgrupper där positiva fynd tidigare rapporterats; och med den förbättrade exponeringsskattningen borde sambanden, om de verkligen var kausala, bli starkare än de som observerats tidigare. Resultaten från den första studien kunde inte bekräftas i detta större material; det fanns inte någon tendens till riskökning i någon av subgrupperna, vilket inte är förvånande utifrån vårt EB-korrigerade resultat.
Även subgrupper där andra studier rapporterat ökade risker under tiden som den nya studien pågick kunde analyseras med god statistisk styrka, och inte heller dessa riskökningar kunde bekräftas. Slutsatsen blev att de ökade risker som tidigare rapporterats var slumpfynd, vilket våra EB-korrigerade analyser avseende östrogenreceptorpositiv bröstcancer bland kvinnor 50 år också indikerade, och att magnetfältsexponering troligen inte påverkar risken för bröstcancer.

False positive report probability vid multipla statistiska test
Inom den molekylärgenetiska epidemiologin vill man kontrollera risken för falskt positiva samband och använder då ofta statistiska test i stället för relativa risker och konfidensintervall. Många forskare skulle säkert önska att P-värdet från ett statistiskt test uttryckte sannolikheten att ett signifikant (statistiskt säkerställt) resultat är en produkt av slumpen, även kallat »false positive report probability« (FPRP) [8]. Tyvärr är det inte så enkelt! FPRP beror nämligen inte enbart på P-värdet, utan också på a priori-sannolikheten att en effekt existerar samt på styrkan hos det statistiska signifikanstestet. A priori-sannolikheten bestäms för en fix effektstorlek, exempelvis sannolikheten för en trefaldig riskökning för en viss genetisk variant. Idén bakom måttet FPRP framgår tydligare genom att belysa analogin mellan diagnostiska test och statistiska signifikanstest (Figur 1).
Vi poängterar att FPRP har en direkt koppling med positivt prediktivt värde (PPV) i diagnostiska testsituationer, nämligen FPRP = 1 – PPV. Ju högre andel sant positiva personer som testas, desto högre PPV; analogt, ju högre apriori-sannolikhet för sann effekt, desto lägre FPRP. För att beräkna FPRP kan man utnyttja följande formel:

(se bild efter texten)

där pi betecknar a priori-sannolikheten för en effekt av en given storlek, 1–beta den statistiska styrkan hos testet och alfa signifikansnivån. Man får således en lägre FPRP genom att öka a priori-sannolikheten pi, öka styrkan 1–beta eller sänka signifikansnivån alfa. Ett Excel-ark för beräkning av FPRP finns på http://jnci.oxfordjournals.org/cgi/content/full/96/6/434/DCI
Användningen av FPRP är inte problemfri. Metoden är bäst lämpad för att användas i designskedet [9], men i realiteten är det ofta så att FPRP beräknas utifrån givna resultat [10]. Ett annat bekymmer är hur man ska kunna uppskatta a priori-sannolikheten för en effekt av en given storlek [11]. EB-tekniken kan också utnyttjas för multipla statistiska test [12]. En fördel med denna teknik är att den är anpassad för att användas med data vid handen.
Istället för att utgå från ett signifikant (positivt) resultat och beräkna en FPRP, så kan man tänka sig att utgå från ett icke-signifikant (negativt) resultat och beräkna en »false negative report probability« (FNRP). Genom att använda siffrorna i Figur 1 får man att FNRP = 5/860 = 0,6 procent i scenario A och FNRP = 25/500 = 5 procent i scenario B. Även i studier med hög statistisk styrka (90 procent i såväl scenario A som scenario B) bör man ibland vara lite försiktig med att dra slutsatsen, utifrån ett negativt resultat, att den statistiska nollhypotesen »inget samband föreligger« är sann. I studier med lägre styrka bör man vara ännu mer försiktig med att dra slutsatser utifrån icke-signifikanta resultat [13].

Slutsatser
Inom epidemiologisk forskning ökar efterfrågan av metoder som ger god hjälp för att bättre bedöma om ett fynd är sant eller falskt. I studier med multipla analyser är det ofta poänglöst att dela upp resultat efter om de är statistiskt signifikanta (säkerställda) eller ej. Om den prövade hypotesen har svag grund kan risken för ett falskt positivt resultat vara hög vid den konventionella 5-procentgränsen för statistisk signifikans. Vid låga a priori-sannolikheter för hypotesen (att en effekt existerar) kan det krävas betydligt strängare krav på vad som ska anses vara ett statistiskt säkerställt resultat för att hålla risken för falskt positiva resultat på en acceptabel nivå [8]. Vägar runt problemet är att begränsa sig till att pröva hypoteser med en rimlig bakgrund, göra analyser av interna rimligheten i resultaten genom att undersöka dos–responssamband, ytterligare subgruppsanalyser, etc. Det är en angelägen uppgift att även lyfta fram och utveckla lättillgängliga statistiska metoder som ger lättolkade resultat, lämpade för att kunna bedöma om ett fynd är sant eller falskt. Vi tycker att EB och FPRP är bra tillvägagångssätt. Det krävs emellertid att EB-metoderna blir mer användarvänliga och att de anpassas till aktuella problemställningar inom epidemiologisk forskning.
*
Potentiella bindningar eller jävsförhållanden: Inga uppgivna.

Fakta. Bayesianska principer

Anta att man utifrån insamlade data i en epidemiologisk studie önskar att skatta en effektstorlek, exempelvis effekten av rökning på risken att utveckla en viss sjukdom, vilken skattas med en relativ risk för rökare jämfört med icke-rökare. Ett bayesianskt tillvägagångssätt innebär att man bygger in förväntningar a priori (i förväg) om effektens storlek och att man väger ihop dessa a priori-förväntningar med resultatet av insamlade data innan slutsatser dras. En extremt försiktig hållning är att anta a priori att alla effektstorlekar är lika troliga, exempelvis att alla (såväl rimliga som orimliga) relativa risker avseende rökning är lika troliga. Med denna hållning blir det i praktiken endast insamlade data som ligger till grund för bedömningen av effektens storlek. Någon a priori-förväntning om effektens storlek finns inte som kan påverka bedömningen. En bayesiansk analys ger i detta fall samma resultat som traditionella, så kallade likelihood-baserade, effektskattningar som inte utnyttjar bayesianska principer. Vanligtvis presenteras sådana traditionella effektskattningar med tillhörande 95-procentiga konfidensintervall. I en renodlad bayesiansk ansats bestämmer man den förväntade fördelningen av effektstorlekar i förväg, utan hänsyn till insamlade data. I situationer när man är intresserad av att uppskatta flera effektstorlekar i en studie, exempelvis rökningens effekt på sjukdomsrisken i olika befolkningsgrupper, kan man emellertid låta den genomsnittliga effekten av rökning i studien utgöra a priori-förväntning om effekten av rökning i de olika undergrupperna. A priori-förväntningen om effektens storlek vägs sedan samman med insamlade data för att få fram de slutgiltiga effektskattningarna för enskilda undergrupper. En sådan ansats som utnyttjar insamlade data för att forma a priori-förväntningen kallas för empirisk Bayes.

Formel för att beräkna FPRP

Figur 1. Två scenarier, A och B, som kan betraktas som antingen diagnostiska eller statistiska testresultat: Diagnostisk testsituation utgår från att 1 000 personer har testats (S+ = sant positiv, S– = sant negativ, T+= testad positiv, T–= testad negativ). I båda scenarierna är Se (= sensitivitet = sannolikheten för T+, givet tillstånd S+) och Sp (= specificitet = sannolikheten för T–, givet tillstånd S–) lika med 95 procent. Däremot skiljer sig scenarierna åt avseende prevalens av sant positiva personer och därmed också PPV (= positivt prediktivt värde = sannolikheten för tillstånd S+, givet testresultat T+), som är lika med 68 procent (95/140) i scenario A och 95 procent (475/500) i scenario B. Statistisk testsituation utgår från att 1 000 dataset har genererats, antingen under antagandet att ett samband existerar (S+) eller under antagandet att inget samband finns (S–); varje dataset har genomgått ett statistiskt test av nollhypotesen, S–, med signifikant resultat (T+) eller icke-signifikant resultat (T–).

Är tabellen svårläst hänvisar vi till nedladdningsbar pdf (hösgt upp på denna sida).

Läs artikel som PDF

Läkartidningen 08/2007

Lakartidningen.se 2007-02-20

1. Klareskog L, Stolt P, Lundberg K, Källberg H, Bengtsson C, Grunewald J, et al. A new model for an etiology of rheumatoid arthritis; Smoking may trigger HLA-DR (shared epitope) – resrticted immune reactions to autoantigens modified by citrullination. Arthritis Rheum. 2006;54:38-46.
2. Greenland S, Poole C. Empirical-Bayes and semi-Bayes approaches to occupational and environmental hazard surveillance. Arch Environ Health. 1994;49:9-16.
3. Steenland K, Bray I, Greenland S, Boffetta P. Empirical Bayes adjustments for multiple results in hypothesis-generating or surveillance studies. Cancer Epidemiol Biomarkers Prev. 2000;9:895-903.
4. Rantapaa-Dahlqvist S, de Jong BA, Berglin E, Hallmans G, Wadell G, Stenlund H, Sundin U, et al. Antibodies against cyclic citrullinated peptide and IgA rheumatoid factor predict the development of rheumatoid arthritis. Arthritis Rheum. 2003;48:2741-9.
5. Feychting M, Forssén U, Rutqvist LE, Ahlbom A. Magnetic fields and breast cancer in Swedish adults residing near high-voltage power lines. Epidemiology. 1998;9:392-7.
6. Forssén U, Feychting M, Rutqvist LE, Floderus B, Ahlbom A. Occupational and residential magnetic fields exposure and breast cancer in females. Epidemiology. 2000;11:24-9.
7. Forssén UM, Rutqvist LE, Ahlbom A, Feychting M. Occupational magnetic fields and female breast cancer: a case-control study using Swedish population registers and new exposure data. Am J Epidemiol. 2005;161:250-9.
8. Wacholder S, Chanock S, Garcia-Closas M, El Ghormli L, Rothman N. Assessing the probability that a positive report is false: an approach for molecular epidemiology studies. J Natl Cancer Inst. 2004;96:434-42.
9. Thomas DC, Clayton DG. Betting odds and genetic associations. J Natl Cancer Inst. 2004;96:421-3.
10. Hung RJ, Brennan P, Canzian F, Szeszenia-Dabrowska N, Zaridze D, Lissowska J, et al. Large-scale investigation of base excision repair genetic polymorphisms and lung cancer risk in a multicenter study. J Natl Cancer Inst. 2005;97:567-76.
11. Matullo G, Berwick M, Vineis P. Gene-environment interactions: how many false positives? J Natl Cancer Inst. 2005;97:550-1.
12. Efron B, Tibshirani, R. Empirical Bayes methods and false discovery rates for microarrays. Gen Epidemiol. 2002;23:70-86.
13. Altman DG. Practical statistics for medical research. London: Chapman & Hall; 1991.