Sammanfattat
Internationella överenskommelser reglerar rapporteringen av randomiserade kliniska prövningar, systematiska översikter och observationsstudier.
Granskningar av artiklar om undersökningsmetoder och deras resultat har påvisat fundamentala brister, även i artiklar publicerade i ledande medicinska vetenskapliga tidskrifter.
Det finns därför ett behov av åtgärder för att öka trovärdigheten vid rapportering av mätmetoders prestanda och validitet, liksom av medicinska undersökningar (test) i stort.
År 2003 publicerades STARD-dokumentet för redovisning av undersökningar (Standards for Reporting of Diagnostic Accuracy). Ett stort antal tidskrifter har anslutit sig till de här nämnda kraven på manuskript.
Detaljerade riktlinjer för resultatdokumentation finns endast för ett mindre antal metoder. Det är ett krav på bla laboratoriemedicinen att sådana riktlinjer sammanställs och blir allmänt tillgängliga.
Rapporter om diagnostiska metoder måste förbättra redovisningar av studiepopulation och studiedesign.
Vinsterna blir bättre kvalitet på vetenskapliga publikationer, större insyn, ökade möjligheter att klarlägga vetenskaplig oredlighet samt förbättrad forskarutbildning.
Två artiklar i JAMA från mitten och slutet av 1990-talet redovisade betydande kvalitetsbrister i vetenskapliga artiklar inom medicinen. Reid och medarbetare granskade artiklar om undersökningsmetoder (»tests«) publicerade i fyra ledande medicinska tidskrifter under en tidrymd av 16 år. Av 1302 studier fyllde 112 kriterierna för vidare granskning. Av dessa befanns i medeltal bara en av fyra uppfylla uppställda krav på riktighet (»accuracy«) som acceptabel redovisning av patientmaterial och av mätnoggrannhet [1]. Det rörde sig här främst om radiologiska och kliniskt fysiologiska undersökningar samt immunkemiska och andra biokemiska mätningar. I senare studier av »diagnostic tests« har en vidare definition använts (Fakta 1).
Lijmer och medarbetare visade i en liknande granskning av 184 artiklar (218 mätmetoder) att brister i studiedesign var vanligt förekommande, ledande till överdrivet positiv bedömning av de aktuella mätningarnas diagnostiska värde [2].
Resultaten från seriösa granskningar av publikationer, även i ledande tidskrifter, talar alltså för att forskning inom detta område bör genomföras och dokumenteras bättre än vad som skett. Aktuella erfarenheter av systematiska översikter av diagnostiska metoder från SBUs ventrombosgrupp talar för avsevärda kvalitetsbrister, som ofta omöjliggör tillförlitliga slutsatser om metodernas prestanda, interna validitet (bias) och externa validitet (mått på diagnostisk riktighet; generaliserbarhet och lämplighet). Därmed blir det kritiskt sammanställda vetenskapliga underlaget oftast alltför bristfälligt när sjukvården ska ta ställning till införande eller utrangerande av något diagnostiskt test. Hälsoekonomiska analyser saknas dessutom, vilket ytterligare försvårar möjligheten att skapa ett underlag för prioritering.
I en aktuell rapport [3] har man granskat faktorer som påverkar utfall och bedömning av mätmetoders prestanda inom medicinsk diagnostik.
Strikta krav på struktur och systematisk redovisning
Den evidensbaserade medicinen upptäckte tidigt svårigheterna med att klarlägga behandlingsmetoders effekter och effektivitet på grund av brister i den vetenskapliga rapporteringen. År 1996 enades företrädare för de stora medicinska tidskrifterna om strikta krav på redovisning av metoder och resultat i randomiserade kliniska prövningar, the CONSORT statement [6]. Resultatet har varit att redaktörer och läsare snabbt kan värdera studiers tillförlitlighet och huvudresultat. De goda erfarenheterna ledde till liknande överenskommelser om rapportering av metaanalyser av randomiserade studier [7] och för metaanalyser av observationsstudier [8]. Liknande riktlinjer finns även för hälsoekonomiska studier, vilka Läkartidningen nu anslutit sig till (lakartidningen.se).
Mätmetoder och trovärdighet
En ledande företrädare för skandinavisk laboratoriemedicin, Willie Gerhardt i Helsingborg, skrev för 20 år sedan en översikt över grafiska och tabellariska metoder för datasammanställning [9]. Denna översikt kan ses som ett led i en dansk tradition inom det hälsovetenskapliga området, där Wulffs klassiska bok Rational diagnosis and treatment [10] lade grunden till det som utvecklades vidare till klinisk epidemiologi vid McMaster [11] och på 1990-talet mynnade ut i EBM-konceptet. En monografi på området skrevs av Doug Altman, som sedermera blev den ledande statistikern inom Cochranesamarbetet [12]. Aktuella översikter ges i flera dokument [13-15]. Det är emellertid viktigt att skapa trovärdighet när det gäller de enskilda mätmetodernas prestanda och validitet.
STARD-initiativet
För att klargöra mätningars validitet och relevans för den aktuella frågeställningen, baser för valda beslutsgränser samt relevans av valda studiepopulationer har enskilda tidskrifter utvecklat checklistor för författare och referenter för skrivning respektive bedömning av manuskript insända för publicering. En sådan lista, tillämpbar på mätningar inom laboratoriemedicinens alla fält, publicerades år 2000 [16]. Otvivelaktigt ledde denna till förbättringar [17, 18].
En internationell samarbetsgrupp, STARD (Standards for Reporting of Diagnostic Accuracy), utgick från ett stort antal (33) sådana checklistor, från vilka 75 punkter valdes ut för vidare bearbetning. I januari–februari 2003 publicerades det sk STARD-dokumentet tillsammans med kommentarer i en lång rad ledande tidskrifter inom laboratoriemedicin och andra medicinska discipliner [4, 19-21]. Sedan dess har alltfler tidskrifter anslutit sig till dessa rekommendationer. Bland annat har man framhållit »to enable readers of diagnostic research reports to evaluate whether methodological key issues were addressed, authors are advised to follow the STARD guidelines« [22]. Det har också framhållits att STARD-dokumentets checklista (Fakta 2) och flödesdiagram för beskrivning av studiedesign är väl lämpade även för andra undersökningar än kliniskt kemiska mätningar (Fakta 1) [23]. Den tidskrift som i skrivande stund senast anslutit sig är Family Practice [24]. Whiting och medarbetare [5] redovisar en checklista för kvalitetsbedömning av studier av diagnostisk riktighet som ett komplement till STARD-dokumentet.
Kritik har dock riktats mot STARD-dokumentet för att det i nuvarande form belyser mätosäkerhet ofullständigt [25].
Ramverk för resultatredovisning
STARD-dokumentet får ses som en stomme för redovisning av medicinska undersökningsresultat. De 25 punkterna i checklistan tar bla upp studiepopulation och patientrekrytering, datainsamling, mätmetoder, statistiska metoder, resultatredovisning och resultatens kliniska användbarhet.
Redovisningen av undersökningsmetoder måste emellertid kompletteras med information som är specifik för det aktuella området. Här är litteraturen dock ofullständig. Feinstein efterlyste exempelvis år 2002 definition och dokumentation av omvårdnadskvalitet [26, 27].
Det är väl förståeligt att intresset för att dokumentera kvalitet är störst för ny metodik. Behovet av standarder för redovisning av sk molekylärgenetiska undersökningar framhölls av Feinsteins grupp 1999 [28.]. År 2001 publicerades riktlinjer för beskrivning av mätningar av genuttryck med sk microarray-teknik (mikromatrisundersökning) [29]. Flera tidskrifter publicerade gruppens öppna brev i frågan [30]. Riktlinjerna antogs omgående av ledande tidskrifter inom fältet [31]. Nyligen publicerades riktlinjer för datapresentation från tvådimensionell elektrofores för sk proteomikundersökningar [32].
Immunkemiska mätningar och bristen på riktlinjer
Det finns ännu inga allmänt accepterade riktlinjer för beskrivning av immunkemiska mätningar, trots att denna grupp av metoder har en vid användning inom medicinsk forskning och sjukvård. Ännu i början av 1970-talet beskrevs deras utförande som »more art than science«, vilket antyder de många faktorer som kan påverka resultat från sådana mätningar. Publikationer baserade på immunkemiska mätningar är legio. Det gäller även publikationer som saknar till och med basal metodologisk information, tex om analytens sammansättning (dvs vad som mäts under de aktuella betingelserna), metodens kalibrering, mätvärdenas riktighet och reproducerbarhet och fördelningen av mätvärdena hos sjuka och friska och hos patienter med samma symtomatologi men med annan diagnos. Endast sällan ser man att författarna klarlagt i vilken utsträckning som mätvärdena påverkats av analytisk interferens. Samma gäller analys av extremvärden (outliers). I avsaknad av sådan information torde det vara omöjligt att reproducera resultaten för andra forskare.
Exempel på faran av att använda immunkemiska metoder som inte validerats adekvat för klinisk användning är rapporterna från mätning av det aminoterminala fragmentet av proBNP, ofta benämnt N-terminalt proBNP, med en kommersiellt tillgänglig metod baserad på ett antiserum riktat mot en central region i molekylen. Vad som egentligen mättes i patientprov med den aktuella mätmetoden är obekant – men inte var det den uppgivna substansen [33].
Ett något mindre drastiskt exempel är mätningen av prolaktin i sjukvård och humanmedicinsk forskning. Ingen seriös tidskrift torde väl nu acceptera ett manuskript med redovisning av prolaktinmätningar, där författarna inte klargjort om de tagit hänsyn till antikroppar i prov, riktade mot prolaktin och ledande till sk makroprolaktinemi [34].
Det finns också andra exempel på polypeptider som cirkulerar i blodbanan i såväl fri som komplexbunden form, vilket kan leda till problem vid tolkningen av mätvärdena. Ett snabbt expanderande sådant område, där immunkemisk mätning intar en central roll, är cytokiner. Kraven är här stora på adekvat metodinformation [35].
För information om beskrivning av immunkemiska mätningar hänvisas man alltså till monografier i ämnet och till de relativt få exempel på kvalitetsspecifikationer som formulerats för enskilda grupper av substanser, exempelvis troponiner [36]. Det är också viktigt att författarna har granskat den/de aktuella substansens/-ernas patofysiologi för att klargöra vilka biologiska faktorer som kan tänkas påverka mätvärdena. Ofta saknas exempelvis information om njurfunktionen – för vissa komponenter spelar njurarna en viktig roll vad gäller elimineringen från blodbanan.
Studiepopulation och studiedesign
För rätt tolkning av mätvärdena krävs att studiepopulationen/-erna är adekvat/a för den studerade frågeställningen. För att kunna bedöma detta måste man definiera och dokumentera den/dem väl. Som nämns ovan stod det klart i mitten–slutet av 1990-talet att betydande brister förelåg härvidlag i den vetenskapliga litteraturen. STARD-dokumentet ägnar därför inte mindre än sju av 25 punkter åt dessa problem, från inklusions- och exklusionskriterier och sjukdomsspektrum till flödesschema för beskrivning av antal patienter som genomgått de skilda undersökningarna. Aktuella översikter beskriver orsaker till feltolkningar som följd av inadekvat studiedesign [3, 37]. I redovisningen av studiepopulationen bör också ingå redovisning av icke-tolkningsbara undersökningsresultat, som tex vid ultraljudsundersökning vid samtidig förekomst av benödem eller andelen ej utvärderbara pulmonalisangiografier vid misstänkt lungemboli [14].
Preanalytiska och postanalytiska orsaker till fel
STARD-dokumentet belyser inte tillräckligt väl betydelsen av noggrann dokumentation av även preanalytiska förhållanden för att man ska kunna undvika systematiska fel (bias) beroende på instabilitet i de uppmätta substanserna, interferens vid mätningen, etc. Även postanalytiska orsaker till fel bör beaktas [38]. Häri ingår även analys av extremvärden, något som alltför sällan redovisas.
Bas för evidensbaserad laboratoriemedicin
Arbetet med riktlinjer för förbättrad dokumentation av vetenskapliga studier ingår i ansträngningarna att skapa en bas för evidensbaserad laboratoriemedicin [39, 40].
Slutsatser
Förbättrad redovisning av planering och genomförande av vetenskapliga studier inom medicinen, liksom av tolkning av resultaten och deras kliniska implikationer, kan leda till att
kvaliteten och validiteten i vetenskapliga manuskript höjs, och bättre beslutsunderlag skapas för den kliniska verksamheten, vilket möjliggör kostnadseffektivitetsanalyser och prioriteringsdiskussioner
tidskrifternas och referenternas bedömning av manuskript insända för publicering underlättas
andra forskargrupper inom fältet får möjlighet att studera samma och närliggande problem om resultaten ifrågasätts
forskningsetikkommittéernas arbete underlättas och effektiviseras
anslagsbeviljande organisationers arbete för rättvis bedömning underlättas och effektiviseras
möjligheterna ökar vad gäller att klarlägga vetenskaplig oredlighet och att frigöra sig från oberättigade anklagelser av detta slag (Fakta 3)
forskarutbildningen förbättras.
STARD-dokumentet och efterföljare är viktiga steg på vägen i denna riktning. En översyn av aktuella metoder inom sjukvården i denna anda ger också förutsättningar för bättre sjukvård. Som exempel kan nämnas metodiken för blodtrycksmätning i primärvård [41].
*
Potentiella bindningar eller jävsförhållanden: Inga uppgivna.