När Sveriges Kommuner och landsting (SKL) avråder [1] från beräkning av urvals­osäkerhet i kliniskt förbättringsarbete (»Skulle vi kräva att skillnaderna skulle vara så stora att vi med 95 procents sannolikhet kan säga att medelvärdet skiljer sig skulle inte mycket bli gjort. För den som vill förbättra för patienterna är det mer konstruktivt att utgå från att det finns något att lära av skillnader och att det kan komma patienterna tillgodo.«) belyses en gammal motsättning mellan två av förbättringsmetodikens portalfigurer, W Edwards Deming och Joseph M Juran.
Juran var ingenjör och fokuserad på ledarskap. Han poängterade betydelsen av numeriska mål­sättningar för att åstadkomma förbättring [2]: »The formula for getting results is to; establish specific goals to be achieved, es­tablish plans for reaching the goals, assign clear respons­ibility for meeting the goals, and base the rewards on results achieved.«
Deming, statistikprofessor i New York, var däremot skeptisk [3] mot enkla jämförelser och rekommenderade i stället: »Eliminate numerical goals for people in management« och betraktade »Eva­luation by performance, merit rating, or annual review of performance« som en »deadly disease«.

För att säkerställa att ny kunskap och bättre metoder kommer patienterna till godo refererar Socialstyrelsen i sina föreskrifter om kvalitet och patientsäkerhet till Deming [4] och hans uppfattning att förbättringsarbete bygger på »profound knowl­edge of improvement«. Deming poängterar här betydelsen av att se förbättringsarbete ur ett systemperspektiv och betonar vikten av att utreda orsaker till variation i systemets resultat. Det är nämligen kännedom om variationsorsaker som kan användas för att ­förbättra systemet.
Att använda variationen för rangordning av personal eller enheter tar emellertid, enligt Demings synsätt, inte hänsyn till att den observerade rangordningen påverkats av systemets effekter och att det därför tenderar att leda till felaktigheter, fusk och ­raserat samarbete.

Att jämföra kvalitet genom att studera behandlingsresultat vid olika kliniker är inte trivialt. Alla observerbara resultat påverkas nämligen av ett antal tillfälligheter som saknar relevans för kvaliteten. Observerade skillnader i klinikresultat kan förklaras helt av sådana irrelevanta tillfälligheter, och observerade likheter kan bero på att verkliga kvalitetsskillnader maskerats av irrelevanta tillfälligheter.
Riskerna för falskt positiva och falst negativa resultat av sådana jämförelser kan och bör därför utvärderas. Det finns ett antal statistiska metoder som utvecklats för ändamålet. Min personliga uppfattning är att förtroendet för ­kvalitetsjämförelser baserade på direkta observationer minskar med ökande erfarenhet av sådan utvärdering.

Ett exempel på svårigheterna kan exemplifieras med en i Läkartidningen publicerad artikel om regionala skillnader i förlossningsvårdens ­resultat [5]. Författarna redovisar att de observerat stora skillnader och hävdar i den engelska sammanfattningen att »… there is a potential for improvement, as evidenced by the regional differences in quality of care shown«.
Ett enkel så kallad goodness of fit-test av de dödföddas regionala fördelning kan dock göras utifrån de data som publicerats i artikeln. Ett sådant test visar att för­fattarnas slutsats vilar på ett bräckligt underlag; data ger inget empiriskt stöd. Den regionala variationen i dödlighet är nämligen inte större än vad som kan förväntas med exakt samma dödsrisk i alla regioner (χ2 = 14,7, df  = 21).
SKL uppmuntrar till ­förbättringsarbete med ­»genombrottsmetoden« [6]. Metoden är också känd som Demings’ cycle och bygger på att förbättringsarbete är en kontinuerligt pågående process. I korthet: Det görs först en probleminventering och mål fastställs, ­sedan tas förbättringsidéer fram, de testas i liten skala under kort tid, varefter en utvärdering sker. De förändringar som visat sig bra genomförs, och processen börjar om med ny probleminventering. Jämförelser med andra, inte minst med hjälp av nationella riktmärken, fyller en viktig funktion i genombrottsmetoden.

Det hävdas ibland att nationella riktmärken inte representerar stickprov utan totalundersökningar och att det därför inte finns någon osäkerhet att utvärdera. Jämförelser med nationella riktmärken skulle alltså kunna göras direkt, utan osäkerhetsvärdering.
Uppfattningen är felaktig. Jämförelserna blir meningsfulla först när man tar hänsyn till de ofrånkomliga tillfälligheter som påverkar kvalitetsresultatet men saknar koppling till kvaliteten. Detta kan göras bara genom att betrakta nationella riktmärken som stickprov från en hypotetisk population, omfattande även framtida patienter. Därför präglas även nationella riktmärken av urvalsosäkerhet

Vad betyder då osäkerheten? Har den någon praktisk betydelse? Svaret är att det varierar från fall till fall. Det finns sannolikt situationer då urvalsosäkerheten är försumbar men också situationer då den har väsentlig betydelse för resultatens tolkning. Det finns många exempel på detta. Här är ett av dem.

Höftprotesregistret redovisar i sin årsrapport från 2006 [7] en tabell över antalet avlidna inom tre månader efter primäroperation. Om man rangordnar klinikerna efter deras standardiserade dödlighetstal (SMR) hamnar Ängelholm med 57 opererade och 0 döda högt upp på ranglistan, på en hedrande 14:e plats, vilket är klart bättre än genomsnittet eftersom det finns 79 kliniker.
Karlstad kommer, med 19 döda på 1 080 opererade, i slutet av rangordningen, på plats 71. Mortaliteten i Karlstad är också statistiskt signifikant högre än riksgenomsnittets.
Trots detta är det inte alls säkert att Karlstad har något att lära av Ängelholm. Med sedvanlig 95 procents säkerhet (konfidensgrad) är det till och med möjligt att Ängelholm, efter hand som det utförs fler operationer, inte bara visar sig ha högre dödlighet än Karlstad, utan till och med dubbelt så hög.
Förklaringen till denna paradox är att urvalsosäkerheten är olika stor i Ängelholms och Karlstads resultat.

Förbättring kräver förändring, men alla förändringar leder inte till förbättring. Paul Batalden, en ledande expert på kliniskt förbättringsarbete som vidareutvecklat Demings förbättringsmetodik, påpekar [8] därför »to know that change is pro­ducing improvement, we need accurate and powerful measurements of what is happening«.
För att undvika misstag i förbättringsarbetet krävs ­beslutsunderlag med känd säkerhet. Att nonchalera osäkerhet i data kan inte anses vara god praxis.
Man kan dock mycket väl, med utgångspunkt i SKL:s inlägg [1], ta upp en diskussion om huruvida 95 procents säkerhet är onödigt hög säkerhet för förbättringsarbete. Det är fullt möjligt att använda en lägre säkerhetsgrad, ­exempelvis 90 eller kanske till och med 80 eller 75 procent. Att argumentera för lägre säkerhet än 50 procent förefaller dock svårt.

På kort sikt kan kanske även irrationella tolkningar av kvalitetsregisterdata leda till att kvalitetsbrister identifieras och åtgärdas, men på lite längre sikt finns uppenbara risker att förbättringsarbetet misslyckas och att förtroendet för kvalitetsregistren raseras. Vår uppfattning inom Nationellt kompetenscentrum för rörelseorganens sjukdomar (NKO) är att hantering av osäkerhetsproblem utgör en väsentlig del av det kliniska förbättringsarbetet. Vi arbetar i stor omfattning med att göra kvalitetsregisterdata tolkbara.
Som ett led i vår strävan att beskriva och förklara osäkerhetsfenomen i kvalitetsregisterdata har vi dessutom utvecklat ett allmänt tillgängligt datorprogram och en webbapplikation (för iPhone) för beräkning av konfidensintervall för rangtal. Beräkningarna, som kan utföras med valfri konfidensgrad, kan göras enkelt och kostnadsfritt via Internet på en NKO-server .
*
Potentiella bindningar eller jävsförhållanden: Inga uppgivna.