»Och hur ser prognosen ut?« är sannolikt den fråga som oftast formuleras, om än inte alltid uttalas, av patienter, anhöriga och behandlande läkare så fort sjukdomsdiagnosen är klar. För alla parter är informationen om hur sjukdom och behandling förväntas påverka patientens livskvalitet och överlevnad viktig. Ett uttalande om prognosen kan hjälpa patienten att ställa in förväntningar kring sjukdomsförlopp och behandlingseffekter, och för läkaren kan informationen vara avgörande i valet av behandling. Det har visat sig att patient och läkare ofta har ganska olika uppfattning om begrepp som rör prognos och risk [1]. För att de tillsammans ska kunna fatta kliniska beslut är det viktigt att läkaren förstår begreppen väl och kan förklara dem för patienten (Tabell I). Ett mål med denna artikel är att ge läkaren några verktyg för att bättre kunna läsa, värdera och medverka i prognosstudier.

Syftet med studier där individer eller patienter följs upp över tid kan vara både etiologiskt och prognostiskt. Till skillnad från etiologiska studier där syftet är att så noggrant som möjligt undersöka orsakssamband, är målet med prognosstudier att bedöma sannolikheten för ett utfall hos en individ. Resultaten från prognosstudier rapporteras ofta som absoluta risker, som har direkt relevans för den enskilda personen. I etiologiska studier däremot presenteras oftast relativa risker (oddskvoter, riskkvoter, hazardkvoter) för att belysa effekten av en orsaksfaktor på risken för ett utfall. Relativa risker kan också presenteras i vissa prognosstudier, där huvudfokus är att t ex jämföra styrkan av olika prognostiska faktorer.

Etiologiska och prognostiska studier skiljer sig också i synen på andra faktorer (kofaktorer). Medan man inom den etiologiska forskningen är mån om att justera för påverkan av eventuella förväxlingsfaktorer (confounders) för att kunna isolera effekten av en tänkt orsaksfaktor, vill man i prognosstudier i stället göra en så precis förutsägelse som möjligt med hjälp av multipla faktorer. Även faktorer som inte anses vara orsaksfaktorer kan därför vara viktiga i en prognostisk modell.

I den här artikeln fokuserar vi främst på prognostiska studier, men inkluderar även resonemang som är relevanta för etiologiska uppföljningsstudier.

Prognosmått i kliniken
De mått som används i sjukvården för att kvantifiera prognos utgår oftast från sjuka individer, men de kan även röra personer med risktillstånd, förstadier till sjukdomar eller friska individer (t ex nyfödda). När en patient diagnostiserats med en sjukdom har man ofta en ungefärlig uppfattning om dess prognos, baserat på studier av grupper av patienter med samma sjukdom. Man kan ha nytta av siffror som medianöverlevnaden för en dödlig sjukdom (den tidpunkt då hälften har dött), den absoluta dödsrisken inom den närmaste tiden (t ex 30 dagar) för en akut sjukdom eller på längre sikt (t ex 5 år) för en mer kronisk sjukdom. I dessa fall representerar prognosen alltså medelvärdet för en grupp, men många patienter skiljer sig avsevärt från »medelpatienten«.

För att kunna skatta prognosen hos en enskild patient måste man ha tillgång till verktyg för riskklassificering, som bygger på risk- eller prognosfaktorer. Termen riskfaktor myntades för 50 år sedan i Framingham Heart Study [2]. Strax därefter konstaterades att majoriteten av alla kardiovaskulära händelser kan förklaras med hjälp av en handfull faktorer.
I början av 1970-talet skapade samma forskargrupp en modell för prediktion av kranskärlssjukdom på individnivå, där man genom att räkna poäng för olika nivåer av dessa riskfaktorer kunde skatta en patients risk för att drabbas av kranskärlssjukdom inom 10 år. I takt med att uppföljningstiden ökade i studien kunde man förbättra precisionen av denna riskpoäng. Med tiden kunde man även göra den tillgänglig som en enkel beräkningstabell, som numera används i kliniken [3]. För 30 år sedan hade mer än 200 riskfaktorer för kranskärlssjukdom föreslagits [4], och antalet har vuxit lavinartat sedan dess.

Scenariot är helt annorlunda för andra sjukdomsgrupper, för vilka inga eller endast ett fåtal riskfaktorer är kända.

Några andra exempel på kliniskt använda riskalgoritmer är FRAX (för att bedöma risk för osteoporosfrakturer) [5], APACHE (för att beräkna dödsrisk hos intensivvårdade) [6], SCORE (för att bedöma 10-årsrisk för hjärt–kärldöd hos personer med t ex hypertoni eller hyperkolesterolemi) [7] och CRB-65 (för att bedöma dödsrisk vid pneumoni) [8]. När man står inför frågan om att sätta in warfarin hos en patient med förmaksflimmer är det inte heller ovanligt att man finner sig vägande strokerisken, som kan räknas ut med CHA2DS2-VASc-poäng [9], mot risken för blödningar, som kan räknas ut med HAS-BLED [10] eller HEMORR2HAGES [11].

Numera finns förutom tabeller och nomogram även mjukvara för datorer och applikationer för smarttelefoner för snabbare och mer exakta riskberäkningar (Figur 1).

Utveckling av prognosmodeller
När man gör en prognosmodell för riskklassificering försöker man i första hand hitta en studiepopulation som liknar den population i vilken modellen sedan ska användas. Man definierar noggrant det utfall man vill studera, vilket oftast är en händelse (t ex en cancerdiagnos) eller tid till en händelse (t ex sjukdomsrecidiv eller död). Därefter bestäms vilka risk- eller prognosfaktorer som ska ingå i studien med utgångspunkt i klinisk erfarenhet och tillgänglig litteratur. Studiepopulationen följs sedan till dess ett tillräckligt antal drabbats av utfallet för att man ska kunna beräkna sannolikheten för utfallet som en funktion av de risk- eller prognosfaktorer som valts.

Antalet faktorer som inkluderas bör anpassas efter studiepopulationens storlek [12]. De koefficienter som genereras i modellen kan sedan användas som vikter när man beräknar sannolikheten för utfallet utifrån den enskilda patientens karakteristika. Individers absoluta risk (som anges i procent) kan sedan presenteras med hjälp av nomogram eller tabeller. Ett exempel är det nomogram som ofta används vid bedömning av risken för lymfkörtelspridning bland prostatacancerpatienter inför ställningstagande till utvidgad lymf­körtelutrymning. Nomogrammet baseras på PSA-värde, kliniskt tumörstadium och histopatologi (Gleason-summa) (Figur 2).

Prognosmodellens validitet. När man tar fram en prognosmodell utifrån en patientgrupp anpassas modellen så väl som möjligt till just den studiepopulationen. Modellen kan dock vara olika precis för olika grupper inom studiepopulationen. Man bör därför utvärdera den interna validiteten, dvs att man inom studiepopulationen jämför hur väl antalet observerade händelser och antalet händelser som prediceras av en modell stämmer överens för olika grupper av patienter (kalibrering).

En annan avgörande fråga är hur väl en modell fungerar i andra populationer än den där man från början tog fram den, vilket man refererar till som dess generaliserbarhet eller externa validitet. Det finns olika exempel på att prognosmodeller inte rakt av bör överföras från en miljö till en annan. Modeller som utvecklats i sekundärpreventivt syfte har t ex visat sig ha sämre prediktiva egenskaper när de används inom primärprevention [13, 14]. Modeller som är utvecklade bland vuxna patienter kan också fungera sämre då de används på barn [15].

För att inom sin egen studie kunna testa hur allmängiltig modellen är kan man använda olika tekniker. Ett vanligt sätt är korsvalidering, där man delar upp patientmaterialet i två delar, ett träningsset (där modellen tas fram) och ett valideringsset (där modellen testas). Valideringen kan göras mer raffinerat på olika sätt, t ex genom att många mindre set (ner till en enstaka individ åt gången) används. Värdet av en pro­gnosmodell överskattas dock lätt om den tas fram och valideras i samma dataset, framför allt om studien är liten och inkluderar många prediktorer. Prognosmodellens externa validitet bör därför utvärderas i andra populationer. För att passa i den nya populationen måste modellen då ibland omkalibreras genom att man inför den nya populationens absoluta risker och riskfaktorprevalenser [16, 17].

Diskrimination. En av de viktigare egenskaperna för klinisk användbarhet hos en ny riskfaktor eller prognosmodell är dess förmåga att skilja ut personer som i framtiden kommer att få ett ogynnsamt utfall från dem som inte kommer att få det. Detta kallas diskrimination (och baseras på absolut risk). I kliniken är detta en mycket viktigare egenskap hos en risk- eller prognosfaktor än den statistiska associationen mellan samma faktor och ett utfall (som baseras på relativ risk). Sjukvården är till sin karaktär dikotom: antingen opererar vi eller så opererar vi inte, antingen strålar vi eller så strålar vi inte osv. Sällan behandlar vi lite grann. Prognosmodeller måste därför testas just utifrån denna dikotomi [18].

Diskrimination har traditionellt studerats med hjälp av C-statistikan, som kan förstås som sannolikheten för att en prognosmodell ger högre risk till den patient som får utfallet än till en patient som inte får utfallet, eller arean under kurvan för sensitivitet mot 1-specificitet. C-statistikan kan användas för att jämföra två prognosmodeller, men den har sina brister. Därför har nya, enkla mått på diskriminativ kapacitet nyligen föreslagits, »net reclassification improvement« (NRI) och »integrated discrimination improvement« (IDI). Dessa, framför allt NRI, har nu blivit de rekommenderade metoderna [19], och varianter på måtten är under utveckling.

Mjukvara för uträkning av båda måtten och ett räkneexempel finns tillgängliga via Uppsala Clinical Research Center http://www.ucr.uu.se [20].

Viktigt vid prognosforskning
Medvetenhet om svagheter som prognosstudier kan vara behäftade med kan vara till hjälp vid planering och genomförande av de studier som ligger till grund för prognosmodellerna liksom vid tolkning och användning av resultaten.

Insamling av prognosvariabler och utfallsdata. De pro­gnosfaktorer som studeras bör helst mätas vid studiestarten då specifik och detaljerad information kan hämtas in och utfallet ännu inte är känt. Eftersom många sjukdomar har en lång förväntad överlevnad, kan det ibland vara effektivt att använda redan insamlade data för att snabbare kunna utvärdera utfallet. För att undvika systematiska fel är det viktigt att prognosfaktorerna då mätts på ett sätt som är helt oberoende av utfallet, t ex vid registrering i hälso- och sjukvårdsregister eller via annan rutinmässig datainsamling.

Det är på samma sätt viktigt att information om utfallet insamlas så att den är oberoende av de prognosfaktorer man studerar. Framför allt gäller detta vid studier med klinisk uppföljning, där man kan tänka sig att uppföljningsintensiteten kan variera beroende på hur allvarlig sjukdomen ter sig. Man kan tänka sig att t ex cancerpatienter med lågt differentierade tumörer omedvetet följs upp noggrannare avseende symtom och sjukdomsspridning än patienter med högt differentierade tumörer. Risken finns då att utfallet systematiskt överskattas i den grupp som följts mest noggrant och underskattas hos de andra. Information som samlas in på ett mer objektivt sätt, exempelvis med blindad utvärdering, är mind­re känslig för denna sorts systematiska fel.

Konkurrerande risker. Vid en traditionell överlevnads­analys utgår man från att studiedeltagarna kan gå två olika öden till mötes. Antingen drabbas de av det utfall man studerar eller så gör de det inte. Ofta beräknas överlevnaden eller den kumulativa incidensen (dvs 1 minus överlevnaden) av utfallet med Kaplan–Meier-metoden. Vid studier av död (av alla orsaker) tolkas Kaplan–Meier-kurvan som andelen studiedeltagare som vid en given tidpunkt under uppföljningen ännu inte har avlidit. Från denna typ av överlevnadskurva rapporteras t ex vanligen 5-årsöverlevnaden bland studiedel­tagarna.

I de fall man vill beräkna den orsaksspecifika överlevnaden för utfallet (t ex sjukdomsspecifik död till skillnad från död av alla orsaker) finns ett par saker att tänka på. I de flesta kliniska studier med längre uppföljning finns en mängd händelser som kan förhindra att patienterna hinner uppleva utfallet man vill studera. Den vanligaste händelsen är att de dör av någon annan sjukdom. Man talar då om att det finns konkurrerande risker (competing risks) för utfallet. Studiedeltagarnas uppföljningstid räknas fram till dess att de drabbas av det konkurrerande utfallet, därefter censureras de från den statistiska analysen på samma sätt som studiedeltagare som t ex emigrerar eller av andra skäl lämnar studien.

Via censureringen skapas en artificiell bild av verkligheten, eftersom studiedeltagarna, krasst uttryckt, tillåts att dö av endast det utfall man studerar. Överlevnaden mätt med en orsaksspecifik Kaplan–Meier-kurva måste således tolkas som sannolikheten att studiedeltagarna fortfarande är vid liv (exempelvis 5 år efter diagnostillfället) i en hypotetisk värld, där man kan drabbas/dö av enbart det valda utfallet och inte av något annat.

Syftet med att konstruera ett mått som har denna, vid första anblicken, onaturliga tolkning är att kunna svara på forskningsfrågor där vi behöver »räkna bort« skillnader som orsakats av att de grupper som man jämför har olika hög mortalitet relaterad till de konkurrerande riskerna. Exempelvis gäller det studier där man jämför överlevnaden i olika länder eller mellan grupper med olika åldersfördelning.

En för­­utsättning för att vi ska kunna göra en sådan tolkning är dock att censureringen är icke-informativ, dvs att de som censureras inte har en systematiskt högre eller lägre risk för utfallet än de studiedeltagare som är kvar under uppföljning. Vid misstanke om informativ censurering måste man utvärdera överlevnaden separat avseende faktorer som kan vara kopplade till censureringen (t ex inom specifika ålders- eller samsjuklighetsgrupper) för att kunna göra ovanstående tolkning.

Om syftet med studien i stället är att mäta risken att drabbas av utfallet i den verkliga världen där konkurrerande risker existerar, kan man inte längre skatta överlevnaden med traditionella analyser. I stället bör man använda särskilda statistiska metoder för konkurrerande risker [21, 22]. Ett exempel är en studie där man vill skatta den faktiska andelen patienter som dör i prostatacancer, och samtidigt ta med i beräkningarna att patienterna också löper risk att dö av andra orsaker än den underliggande sjukdomen [23]. Här tenderar en vanlig Kaplan–Meier-analys att överskatta risken för prostatacancerdöd, medan metoden som tar hänsyn till konkurrerande risker bättre besvarar forskningsfrågan (Figur 3).

Ledtid. Eftersom överlevnadstid utgörs av skillnaden mellan två tidpunkter, exempelvis cancerdiagnos och död, är den känslig för förändringar av båda tidpunkterna. Om diagnosen sätts hos en patient som debuterar med symtom startar uppföljningstiden vid denna tidpunkt, men om sjukdomen upptäcks genom screening kommer diagnosen att tidigareläggas och överlevnadstiden därmed automatiskt att förlängas även om tidpunkten för död skulle vara oförändrad. Den adderade tiden kallas ledtid (lead time) (Figur 4). Förhoppningen är förstås att tidigare diagnostik leder till längre överlevnad och bättre prognos, men en sådan effekt kan vara svår att urskilja från effekten av ledtid.

En förlängd överlevnadstid är med and­ra ord inte ett säkert bevis på en förbättrad prognos. Skillnader i diagnostik kan därför påverka hur väl ett pro­gnosverktyg fungerar i olika patientpopulationer.

Förändring i diagnostik över tid. Förändringar i definitionen av en sjukdomsdiagnos över tid kan också leda till en förändrad skattning av överlevnaden. Det senaste decenniet har t ex allt känsligare mätmetoder för detektion av hjärtenzymer i blod införts, vilket lett till upptäckt av allt mindre hjärtinfarkter, med allt bättre prognos. Utvecklingen av diagnostiska verktyg som datortomografi och magnetisk resonans har också bidragit till en precisare bedömning av kliniskt stadium vid cancer. Eftersom man i högre utsträckning hittar spridd sjukdom nu än tidigare, leder det till en selektiv omklassificering. De patienter som omklassificeras har som regel sämre pro­gnos än patienter med lokaliserad sjukdom, men bättre än patienter med kliniskt uppenbara meta­staser. En sådan förskjutning av tumörstadium (stage migration) leder till att överlevnaden framstår som bättre i båda grupperna, trots att den verkliga prognosen inte förändrats.

Detta och andra aspekter på tolkning av canceröverlevnadsdata finns väl beskrivet i en artikel av Dickman et al [24]. Förändringar över tid kan således begränsa generaliserbarheten av äldre prognosstudier (och därmed även prognosmodeller/riskalgoritmer baserade på dessa studier) till mer samtida patientpopulationer.

Och hur ser prognosen ut?
När man utvärderar prognostiska studier finns flera andra viktiga aspekter att uppmärksamma. En central fråga är förstås om den prognostiska faktorn är praktiskt användbar i kliniskt bruk. Alltför tidskrävande frågeformulär, riskfyllda ingrepp eller arbetsintensiva laboratorieanalyser kan förlora sitt värde om de i praktiken är obrukbara. Kriterier för utvärdering av klinisk användbarhet av nya riskfaktorer har föreslagits [25-27], och de omfattar framför allt tre frågor:

• Kan klinikern mäta riskfaktorn?
• Ger riskfaktorn någon tilläggsinformation?
• ­Hjälper riskfaktorn klinikern att fatta bättre kliniska beslut?

Den första frågan handlar om huruvida testet är lättillgängligt och ger tillförlitliga, reproducerbara mätresultat på tillräckligt kort tid och till rimlig kostnad. Den andra frågan syftar på om den nya markören tillför prognostisk information utöver befintliga markörer. Den tredje handlar om bevis för bättre kliniska beslut genom användning av den nya risk- eller prognosfaktorn.

Nya riskfaktorer för olika sjukdomar föreslås i allt snabbare takt, men mycket få av dem kommer att visa sig vara kliniskt användbara för riskprediktion eller prognostisering. Vissa forskare nöjer sig med att visa ett statistiskt signifikant samband mellan en ny riskfaktor och ett utfall, men det är långt­ifrån tillräckligt för att ta denna riskfaktor från »bänk till sjukbädd«.

En kliniskt relevant risk- eller prognosfaktor (eller en kombination av flera) kan kännas igen på att den när den används förändrar predicerad risk i hög grad och åt rätt håll hos personer med relevant absolut risk, vilket gör att den påverkar kliniskt beslutsfattande. Om läkare börjar ställa krav på tillgång till validerade prognosverktyg inom sina respektive kliniska områden och om forskare ansluter sig till de riktlinjer som föreslagits för utveckling och utvärdering av prognos­verktyg, ser prognosen för både patienter och prognosforskning ljus ut.
*
Potentiella bindningar eller jävsförhållanden: Inga uppgivna.

»Verktyg för klinisk forskning« är en artikelserie som omfattar 14 artiklar om grundläggande principer för hur man planerar och genomför kliniska forskningsstudier. Serien startade i nr 3/2013. Denna artikel är avsnitt 6. Illustration: Jakob Robertsson/Typoform

Om tabellen är svårläst, se bifogad pdf.

Figur 1. Absolut risk att drabbas av hjärt–kärlsjukdom inom 10 år, enligt en prognosmodell framtagen i Framingham Heart Study, en populationsbaserad kohort från Massachusetts, uträknad med hjälp av appen MedCalc för iPhone. Modellen bör omkalibreras för att passa svenskar i Sverige.

Figur 2. Nomogram för bedömning av risken för lymfkörtelspridning hos patienter med prostatacancer inför ställningstagande till utvidgad lymfkörtelutrymning baserad på PSA-värde (prostataspecifikt antigen), kliniskt tumörstadium och Gleason-summa vid biopsi. Nomogrammet används genom att man först lokaliserar patientens PSA-värde på linjen för PSA. En lodrät linje dras sedan så att riskpoängen kan avläsas ovanför på den översta raden. Man gör sedan på samma sätt med de andra parametrarna, varefter den totala ­poängen summeras. Slutligen dras en lodrät linje från den totala poängsumman till den nedersta raden, där patientens beräknade risk (för att ha spridning till lymfkörtlar) kan avläsas. Efter: Briganti A, et al. Eur Urol. 2006;49(6):1019-26 [28].

Figur 3. Prostatacancerspecifik kumulativ incidens (svart linje) och kumulativ incidens av prostatacancerdöd (vinrött fält) och annan död (rosa fält) justerade för konkurrerande risker bland multisjuka män med prostatacancer. Charlsons samsjuklighetsindex indikerar förekomst av samsjuklighet från låg (0) till hög (2+). Den kumulativa incidensen av prostatacancerdöd är lägre bland män med hög samsjuklighet än bland män utan samsjuklighet, medan Kaplan–Meier-estimaten (svart linje) ligger högre oavsett samsjuklighet. Efter: Berglund A, et al. J Urol. 2011;185(3):833-9 [23].

Om tabellen är svårläst se bifogad pdf.

Figur 4. Illustration av naturalförloppet vid cancer och beräknad överlevnadstid hos en cancerpatient som diagnostiserats kliniskt (överst) och en symtomfri patient som diagnostiserats via scree­ning där den tidigarelagda diagnosen inte påverkat sjukdomsförloppet (nederst). I det senare fallet bidrar s?k ledtid till längre beräknad överlevnadstid.