Sammanfattat
Planering, genomförande, rapportering och kritisk granskning av diagnostikstudier bör följa internationella riktlinjer, de s k STARD- och QUADAS-kriterierna, så att resultatens giltighet och generaliserbarhet går att bedöma.
Basala kvalitetskriterier omfattar bl a adekvat beskrivning av studiedesign, inklusions- och exklusionskriterier, patientkarakteristika, utförande av index- och referenstest inklusive eventuell blindning vid bedömning av testresultaten.
Resultatet av indextestet för klassificering av individer som friska eller sjuka ska redovisas i en korstabell, tillsammans med sensitivitet, specificitet och prediktiva värden samt konfidensintervall som beskriver den statistiska osäkerheten.
Jämförelser av diagnostisk tillförlitlighet mellan olika indextest ska underbyggas med adekvata statistiska metoder.
Utöver diagnostisk tillförlitlighet är det viktigt att också utvärdera patientnyttan, dvs hur förändrad diagnostik påverkar morbiditet och mortalitet, samt hälsoekonomiska aspekter.
I diagnostikstudier undersöks tillförlitligheten hos ett eller flera test vid identifiering av sjukdom eller värdering av patientens tillstånd. Ett diagnostiskt test kan omfatta kliniska fynd, biokemiska analyser, funktionsanalyser, bildgivande metoder och analys av vävnadsprov. Studier inom diagnostikens område kan vara behäftade med metodologiska svagheter, som gör att den diagnostiska förmågan eller patientnyttan hos indextestet felbedöms eller till och med överskattas. Det är därför viktigt med en transparent redovisning så att resultatens giltighet och generaliserbarhet går att bedöma.
Syftet med denna artikel är att beskriva vad man bör tänka på när man planerar, genomför, rapporterar eller utvärderar diagnostikforskning. Våra rekommendationer följer till stor del internationella riktlinjer, de s k STARD-kriterierna (Standards for the Reporting of Diagnostic accuracy studies;
<http://www.stard-statement.org>) [1]. Liknande riktlinjer – QUADAS (Quality Assessment Tool for Diagnostic Accuracy Studies) [2, 3] och SBU:s metodbok <http://www.sbu.se/metodbok> – finns för utvärdering av diagnostikstudier i exempelvis en systematisk litteraturöversikt.
Grundläggande terminologi
Diagnostiska test ger ofta kvantitativa testsvar, som sedan kategoriseras, t ex D-dimertest som används för att utesluta lungembolism och NT-proBNP (N-terminal brain natriuretic peptide) som används för att klassificera graden av hjärtsvikt. För att kunna fatta välgrundade beslut om vidare utredning eller behandling är det viktigt att känna till den diagnostiska tillförlitligheten (diagnostic accuracy) hos testet i den kliniska situationen. Test som utvärderas benämns indextest. Som jämförelse används ett referenstest, dvs ett test som bedöms som tillräckligt bra för att utgöra facit kring patientens verkliga tillstånd. Referenstestet kan i praktiken bestå av flera test och ibland också innebära att patienten följs upp över tid (Fakta 1).
Tillförlitligheten hos indextestet, dvs förmågan att korrekt identifiera, utesluta eller klassificera sjukdom i en specifik klinisk situation, beskrivs ofta med hjälp av sensitivitet, specificitet och prediktiva värden (Fakta 1) och ibland också med sannolikhetskvoter (likelihood ratios) [4, 5]. I situationer då det kvantitativa testsvaret används för att värdera patientens tillstånd utan klassificering kan överensstämmelsen med referensmetoden i stället illustreras med hjälp av s k Bland–Altman-diagram (Figur 1) och sammanfattas med kvantitativa mått på systematiskt fel (bias), precision och noggrannhet [6].
Klinisk situation och population avgör generaliserbarhet
Det är viktigt att precisera syftet med diagnostikforskningen, att ange vilken klinisk situation, vilken population och vilka undergrupper som ska studeras. Det finns en hierarki i utvärderingen av diagnostiska test, där inledande studier av ett nytt diagnostiskt verktyg (indextest) kan syfta till att avgöra om testet över huvud taget har förmåga att skilja ut – diskriminera – sjuka individer från friska. Diskrimineringsförmågan hos indextestet kan illustreras med en ROC-kurva (ROC = receiver operating characteristic) [5, 7] och användas för att hitta tröskelvärden hos kvantitativa testsvar för att identifiera eller utesluta sjukdom (Figur 2).
Fortsatta studier enligt den diagnostiska testhierarkin kan jämföra den diagnostiska förmågan (t ex sensitivitet, specificitet och prediktiva värden) med andra indextest eller bedöma hur mycket tillförlitligheten i diagnostiken förbättras om det nya testet kombineras med sådana test som redan används (clinical validity tests) [8, 9]. Ett nytt statistiskt mått, NRI (net reclassification improvement), kan användas för att beskriva hur mycket felklassificeringen minskar [10]. Diagnostikstudier kan också undersöka hur tillförlitligheten hos indextestet varierar i olika kliniska situationer och populationer.
Som en allmän tumregel är sensitiviteten högre och specificiteten lägre ju högre prevalensen är av det tillstånd som ska diagnostiseras (Fakta 2). Resultaten av en studie som exempelvis genomförts bland patienter som remitterats för vidare utredning (hög prevalens = hög klinisk sannolikhet) kan därför inte utan vidare överföras till andra situationer, t ex rutinundersökningar med låg klinisk sannolikhet eller rena screeningsituationer.
På översta nivån i den diagnostiska testhierarkin undersöks om patienter som utsätts för indextestet får en behandling som leder till reducerad morbiditet och mortalitet eller om hälsoekonomiska analyser visar på förbättrad kostnadseffekt (clinical utility tests) [11]. Det är viktigt att man gör klart för sig på vilken nivå den aktuella diagnostikstudien befinner sig både när man genomför och när man utvärderar diagnostikforskning. Tyvärr saknas ofta studier som utvärderar den kliniska nyttan av att införa ett nytt diagnostiskt test.
Studieupplägg påverkar risk för snedvridning av resultat
Det är viktigt att studiens design och inklusions- och exklusionskriterierna för de testade patienterna beskrivs utförligt. Studiesyftet avgör vilket upplägg som är mest lämpligt. Flertalet diagnostikstudier är tvärsnittsundersökningar, dvs index- och referenstest utförs samtidigt och jämförs direkt utan ytterligare uppföljning. Prospektiv inklusion av konsekutiva patienter som alla genomgår både index- och referenstest oavsett utfall på de enskilda testen är normalt att föredra. Om det finns en fördröjning mellan utförandet av index- och referenstestet är det viktigt att detta redovisas tydligt så att det går att bedöma om det är rimligt att anta att patientens tillstånd inte ändrats under tiden.
Longitudinella undersökningar, dvs uppföljningar över tiden, kan syfta till att värdera patientnyttan av förbättrad diagnostik, t ex genom att studera om resultatet av indextestet kan förutsäga eller påverka sjukdomsförloppet om adekvat behandling ges. En longitudinell undersökning har i allmänhet högst evidensvärde om den är randomiserad, t ex en screeningundersökning där ett slumpmässigt urval av befolkningen erbjuds ett diagnostiskt test för att undersöka om tidig upptäckt av sjukdomen kan minska morbiditet eller mortalitet jämfört med övriga i befolkningen som inte erbjuds testet. Även välgjorda observationsstudier baserade på registerdata kan ha ett stort värde.
Studiens storlek ska motiveras med en s k styrkeberäkning (power-beräkning), som kan utföras med hjälp av konventionella metoder för binära utfall som finns implementerade i standardprogram för statistisk analys [12]. Om studien är en tvärsnittsundersökning som jämför olika diagnostiska test, bör den dimensioneras så att den har god chans (ofta uttryckt som minst 80 procents sannolikhet) att upptäcka kliniskt intressanta förbättringar i den diagnostiska tillförlitligheten, t ex ökad sensitivitet eller ökad specificitet.
Antalet patienter som deltar i studiens olika faser bör redovisas i ett flödesdiagram så att bortfallets omfattning och eventuella konsekvenser går att bedöma (se Figur 1 i Bossuyt et al [1] som exempel). Selektionsfel (selection bias) uppstår om de inkluderade studiepatienterna skiljer sig systematiskt från den population som studien avsåg att utvärdera, vilket kan påverka såväl giltigheten som generaliserbarheten av resultaten. Risken för selektionsfel är särskilt överhängande i retrospektiva studier som baseras på redan insamlade patientdata från vårdsituationer där såväl index- som referenstest använts. I sådana patientmaterial kommer kliniska situationer där referenstestet sällan eller aldrig utförts att vara underrepresenterade, något som är viktigt att beakta när resultatens giltighet värderas.
I en nyligen publicerad SBU-rapport utvärderades formler för att skatta njurfunktionen baserade på plasmakoncentrationen av kreatinin eller cystatin C [13]. En tydlig brist i kunskapsunderlaget, som också påtalades i rapporten, var avsaknaden av prospektiva studier i populationer som sällan genomgår mätning av njurfunktionen med mera invasiva referenstest (såsom johexolclearance), t ex intensivvårdspatienter och andra patienter inlagda på sjukhus samt äldre multisjuka individer på vårdboende.
Selektionsfel kan också uppstå om referentestet bara utförs om indextestet är positivt, eftersom falskt negativa indexresultat då saknas i undersökningen. I ovan nämnda SBU-rapport exkluderades av denna anledning studier som endast omfattade patienter där indextestet (skattning av njurfunktionen med formel) indikerat sänkt njurfunktion. Selektionsfel kan också förekomma i prospektiva studier, exempelvis om hälsan hos deltagarna i en screeningundersökning redan vid studiestarten skiljer sig från hälsan i övriga befolkningen.
Genomförandet har stor betydelse för tillförlitligheten
Det är viktigt att index- och referenstest beskrivs på ett sådant sätt att noggrannheten i utförandet går att bedöma och så att det finns förutsättningar att värdera resultaten och eventuellt anamma den testade metoden i rutindiagnostiken. Precisionen hos kemiska analysmetoder som används för att ge kvantitativa provsvar redovisas normalt som variationskoefficienten (CV = coefficient of variation), dvs standardavvikelsen vid upprepade bestämningar av samma biologiska prov uttryckt i procent av medelvärdet. För indextest som utgörs av kvalitativa bedömningsinstrument bör resultat redovisas, vilka anger testets tillförlitlighet vid upprepade bedömningar av samma tillstånd (intraobserver eller test–retest reliability) och för skilda bedömare (interobserver eller inter-rater reliability) [5].
Erfarenhet och kompetensnivå hos tolkare av testet bör beskrivas, eftersom det kan ha stor betydelse för utfallet. Blindning, dvs att resultatet av indextestet eller andra testresultat inte får påverka bedömningen av referenstestet och vice versa, är av stor vikt för att förhindra snedvridning av resultaten.
Valet av referenstest är mycket viktigt, eftersom brister i referenstestet kan leda till att tillförlitligheten hos indextestet underskattas och att testets sensitivitet och specificitet blir missvisande. Om referensmetoder med olika tillförlitlighet används, kan det vara svårt att jämföra resultaten mellan olika studier. Skillnader mellan olika referensmetoder kan exempelvis vara en viktig förklaring till de relativt stora skillnader i tillförlitlighet hos kreatininbaserade formler för skattning av njurfunktion som har rapporterats i olika populationer [14]. Brister i referenstestet kan också vara en förklaring till den relativt låga sensitiviteten hos datortomografi för att korrekt identifiera lungembolism, vilket redovisas i Fakta 1 [15].
Resultat – variation och statistisk osäkerhet
I diagnostikstudier bör grundläggande demografiska (t ex kön och ålder), antropometriska (t ex längd och vikt) och kliniska patientdata redovisas uppdelat utifrån resultatet av referenstestet (positivt/negativt, Figur 3). Ytterligare uppdelning av sådana bakgrundsdata utifrån resultatet av indextestet kan ge viktig information om vilka kliniska eller andra data som kan påverka den diagnostiska tillförlitligheten. Förekomst av andra diagnoser (samsjuklighet) och sjukdomens svårighetsgrad hos patienterna med positivt referenstest bör också redovisas, eftersom sådana faktorer kan ha stor betydelse för testets diagnostiska tillförlitlighet och generaliserbarhet.
Resultatet av indextestet för klassificering av individer som friska eller sjuka ska redovisas i en korstabell som i Fakta 1, tillsammans med sensitivitet, specificitet och prediktiva värden samt konfidensintervall som beskriver den statistiska osäkerheten. Jämförelser av diagnostisk tillförlitlighet mellan olika indextest som utförts på samma patienter kan också redovisas med konfidensintervall, och skillnader kan prövas med statistiska metoder för parade mätningar, t ex McNemars exakta test [5]. Om studien redovisar hur den diagnostiska tillförlitligheten varierar i olika undergrupper, kan statistiska metoder som värderar om den observerade variationen är mer än slumpmässig, t ex heterogenitetstest, med fördel användas.
Förutsättningar för att förbättra studiekvaliteten
Vi har i denna artikel diskuterat diagnostikstudier som värderar diagnostisk tillförlitlighet, men också beaktat studier av överensstämmelse mellan kvantitativa testsvar, longitudinella studier av patientnytta och randomiserade studier. Våra rekommendationer är i vissa fall mer långtgående än de internationella riktlinjer för diagnostikstudier som i dag finns att tillgå. Tillsammans skapar detta goda förutsättningar för att förbättra kvaliteten hos diagnostikstudier och bör vara känt av alla som utför, läser och granskar diagnostikstudier.
En transparent rapportering är visserligen ingen garanti mot fel i studieupplägg, urval av patienter, genomförande, statistisk analys eller tolkning, men den gör att sådana fel går att upptäcka och att konsekvenserna för resultatens giltighet och generaliserbarhet blir möjliga att bedöma.
*
Potentiella bindningar eller jävsförhållanden: Inga uppgivna.
(uppdaterad 2021-09-01)