Överenskommelsen [1] mellan regeringen och Sveriges Kommuner och landsting (SKL) om utveckling och finansiering av nationella kvalitetsregister för vård och omsorg under åren 2012–2016 utgår från syftet och förhoppningen om att kvalitetsregister förbättrar vården, minskar antalet vårdskador, leder till snabbare utrangering av undermåliga metoder och produkter, och ger jämlikare vård, minskat lidande och bättre livskvalitet för patienterna. Det finns många övertygande exempel på att så verkligen också varit fallet, inte minst bland de allra äldsta registren som startade redan på 1970-talet.
Det är dock inte självklart att liknande förbättringar kan åstadkommas nu och i framtiden. Att det ingår en empirisk prövning av kvalitetsregistersatsningen är därför förnuftigt. För att utvärderingen också ska bli förnuftig krävs emellertid att två viktiga statistiska fenomen beaktas: regression och multiplicitet. Båda ökar kraftigt risken för felaktiga slutsatser.
Ett sedan 1800-talet välkänt [2] men i kliniska studier ofta förbisett statistiskt fenomen [3] heter på engelska »regression to the mean«. Det handlar om att ett första extremt mätvärde ofta efterföljs av ett mindre extremt värde. I en klinisk prövning av ett diabetesläkemedel mot placebo kan till exempel inklusionskriterierna innebära att enbart patienter med högt HbA1c inkluderas. Efter en viss behandlingsperiod kommer HbA1c-värdet att vara lägre, även i placebogruppen. Denna så kallade placeboeffekt omges ofta av psykologiska förklaringar, men kan som regel förklaras som ett rent statistiskt fenomen.
För att förstå den bakomliggande mekanismen kan man göra ett enkelt experiment: Kasta tolv tärningar och välj ut
de fyra som visar högst poäng, notera deras medelpoäng, och kasta dessa tärningar en gång till. I det andra kastet blir deras medelpoäng oftast lägre än i det första.
Denna förändring misstolkas ofta som en behandlingseffekt och har angetts som förklaring till varför man i studier funnit statistiskt signifikanta förändringar efter vissa kontroversiella behandlingar, till exempel homeopatiska läkemedel.
Konsekvenserna av fenomenet är minst två:
För det första bör regressionseffekter beaktas i alla analyser av behandlings- och förbättringseffekter. Detta görs enklast genom att jämföra med en kontrollgrupp. Longitudinell uppföljning av enskilda grupper är vilseledande då den observerade förändringen avspeglar både regressions- och behandlings- eller förbättringseffekter.
För det andra behöver man i jämförelserna med kontrollgrupper justera resultatet för olikheter i utgångsvärden eftersom de påverkar regressionseffektens storlek. Ju längre bort från populationens medelvärde den studerade gruppen befinner sig desto större blir regressionen.
Fenomenet är lika påtagligt i förbättringsarbete som i kliniska prövningar. Förbättringar vid högt eller lågt rankade kliniker kan också misstänkas vara förenade med högre grad av regression än förbättringar vid kliniker med medelrankning, vilket ställer särskilda krav på den statistiska utvärderingen.
Begreppet signifikans handlar om risken för falskt positiva resultat. Med en 5-procentig signifikansnivå är risken för varje enskilt signifikanstest 5 procent. Utförs flera signifikanstest kan man således förvänta sig att 5 procent av dessa uppvisar statistisk signifikans, då ingen verklig förändring föreligger. Risken att få minst ett falskt positivt resultat ökar alltså snabbt med antalet utförda test. Att hantera detta fenomen på ett rationellt sätt är ett centralt problem vid design och analys av kliniska prövninger [4]. Tydliga riktlinjer finns dock [5] för hur svårigheterna ska bemötas.
En väsentlig fråga är hur stor osäkerhet i resultatet som kan anses vara acceptabel. Att kräva att enbart tio diagnosgrupper ska ha statistiskt säkerställda förbättringar säger inget om osäkerheten. Om tillräckligt många olika kombinationer av diagnoser testas kommer statistiskt säkerställda förbättringar (och försämringar) att upptäckas på löpande band.
Utvärderingen skulle emellertid då också leda till ett resultat med så stor osäkerhet att det inte fungerar som ett rationellt beslutsunderlag. I stället krävs ett samlat utvärderingsresultat med specificerad och rimlig säkerhet.
Detta kan kräva korrektion vid utvärderingen av enskilda diagnosgruppers förbättring, till exempel med hjälp av Bonferroni-metoden (det finns andra alternativ), vilket i sin tur förutsätter att diagnosgrupperna har definierats i förväg, innan definitionen hunnit påverkas av vad som skett under uppföljningen.
Då satsningen på kvalitetsregister också innebär publicering av behandlingsresultat för olika diagnoser bör det redan nu fastställas i en offentlig statistisk analysplan hur utvärderingen ska göras, vilka diagnosgrupper som ska undersökas och hur regressionseffekterna ska beaktas. Det finns flera nyligen publicerade översiktsartiklar [exempelvis 6, 7] med riktlinjer för statistisk analys inom olika områden som stöd. Utarbetandet av analysplanen bör påbörjas omgående.
*
Potentiella bindningar eller jävsförhållanden: Inga uppgivna.
Publicerad:
Läkartidningen 42/2012
Lakartidningen.se