Evidensbaserad medicin (EBM) är den metodiska, explicita och välgrundade användningen av den bästa evidensen som finns tillgänglig för att fatta beslut om vård för individuella patienter [1]. Att rutinmässigt arbeta enligt EBM betyder att man integrerar sin kliniska expertkunskap med den bästa tillgängliga externa kliniska evidensen. De som förespråkar bruket av EBM försöker minska gapet mellan klinisk forskning och klinisk praxis. Detta görs genom att man systematiskt sprider resultat från högkvalitativa studier för att uppmuntra och hjälpa den enskilde läkaren att inkorporera dessa resultat i sin kliniska vardag och sitt beslutsfattande.
Inom denna rörelse har också »number needed to treat« (NNT) blivit populärt. NNT har beskrivits som det kliniskt mest användbara måttet på effekt av olika vetenskapligt studerade interventioner [2]. Syftet har varit att sammanfatta behandlingseffekter på ett lättillgängligt sätt. NNT har fått ökad popularitet i Sverige under de senaste åren och används ibland som underlag inför beslut avseende behandlingsrekommendationer [3]. NNT ses ofta också som ett verktyg för att beskriva en behandlings kostnadseffektivitet.
Denna artikel syftar till att ge klarhet kring definitionen av NNT, ursprunget och användningsområdena, och dessutom förklara vilka problem som finns med NNT-användning och särskilt varför beslut avseende resursallokering inom vården baserat på NNT är problematiskt. Ett i artikeln genomgående använt exempel är Ascot-studien, en statinstudie som exemplifierar hur NNT kan beräknas men också hur lätt det är att göra generaliseringar avseende klinisk effekt och kostnadseffektivitet. Exempel från andra terapiområden kan också användas, men för enkelhetens skull får Ascot-studien illustrera NNT och dess användningsområden.


Definitioner
När man studerar effekten av en läkemedelsbehandling eller en behandlingsstrategi är det effektmått man använder oftast antalet oönskade händelser som inträffar. I tex en hjärt–kärlstudie kan effektmåttet vara hur många hjärtinfarkter, stroke eller dödsfall som inträffade under studiens gång. Resultatet av studien visar då att patienterna – beroende på vilken behandling de fick – ges en genomsnittlig risk för någon av de definierade händelserna. Denna risk kan uttryckas som en riskkvot (RR, relativ risk) och visar kvoten mellan riskerna för en händelse i de olika behandlingsgrupperna. Publicerade resultat från kliniska studier använder oftast relativ riskreduktion (RRR), absolut riskreduktion (ARR) eller NNT för att beskriva effekten av en behandling. »Number needed to treat« skulle kunna översättas till »antal patienter som måste behandlas«. Med det avses hur många patienter som måste behandlas för att en viss definierad händelse skall undvikas.
Under de senaste åren har flera artiklar behandlat frågan om hur man skall kunna integrera resultat från flera olika självständiga studier till en samlad bild kring ett visst ämnesområde. Vissa förespråkar att man bara bör använda relativ riskreduktion [4] eller absolut riskreduktion [5], medan andra föreslår att NNT används [6, 7]. Valet av metod styrs av studietypen och dess design.

Absolut riskreduktion. För att förklara skillnaden mellan ARR, RRR och NNT presenteras nedan ett exempel, Ascot-LLA-studien [8]. I denna studie behandlades 10305 patienter med välkontrollerad hypertoni och normala lipidvärden i en sk lipidarm (lipid lowering arm) med antingen atorvastatin 10 mg eller placebo under i genomsnitt 3,3 år. Under denna tid inträffade »dödsfall på grund av koronar hjärtsjukdom eller icke-dödliga hjärtinfarkter« (primärt effektmått) hos 1,9 procent av patienterna som behandlades med atorvastatin och hos 3,0 procent av patienterna som fick placebobehandling. Den absoluta riskreduktionen blir då skillnaden mellan grupperna:
ARR = 3,0 – 1,9 = 1,1 procentenheter

Relativ riskreduktion. Den relativa riskreduktionen (RRR) tar hänsyn till den bakomliggande risknivån hos hela patientpopulationen, dvs måttet visar hur riskreduktionen för den behandlade gruppen står i relation till riskreduktionen i den placebobehandlade gruppen. ARR divideras med andelen händelser i placebogruppen:
RRR = 1,1/3,0 = 0,37; dvs 37 procent

Number needed to treat. NNT beräknas också på basis av ARR. NNT är lika med 1 dividerat med ARR, alltså den inverterade absoluta riskreduktionen. I exemplet medför det:
NNT = 1/0,011 = 91

Med det menas att 91 patienter måste behandlas i genomsnittunder 3,3 år för att man skall kunna observera en händelse mindre, definierad i det primära effektmåttet, efter denna tid.
NNT nämndes första gången 1988 i en artikel av Laupacis och medarbetare [2]. NNT var ett sätt att mäta behandlingseffekt genom en metod som skulle vara meningsfull, kliniskt användbar och lätt att förstå. Tanken var att NNT skulle ge en rättvis bild, då behandlingsresultat från olika studier ofta kan vara svårtolkade. Ett rapporterat studieresultat kan tex lyda: »Behandling med läkemedlet A under ett år minskade den absoluta risken att få en blodpropp från 4,004 till 2,332 procent hos den behandlade gruppen.« Samma resultat kan med NNT-metoden beskrivas som: »Om 60 patienter behandlas i ett år med läkemedel A undviker man 1 blodpropp.«


NNTs popularitet
Introduktionen av NNT kan antagligen ses som en reaktion på den frekventa användningen av RRR när resultat från kliniska studier presenteras [9]. En studie av Forrow och medarbetare [10] konstaterade att hur resultat presenteras påverkar läkarens bedömning av hur patienterna borde behandlas. Resultat som presenteras med RRR hade störst möjlighet att påverka klinisk praxis, oavsett mottagarens kunskapsnivå om statistik. Bucher och medarbetare [11] studerade om samma sak gällde för lipidsänkande läkemedel och fann också att resultat presenterade med RRR påverkade läkaren mest.
En snabb överblick över de kliniska resultat som har publicerats de senaste årtiondena visar att en hög andel publikationer väljer att presentera sina resultat med hjälp av RRR. Detta kan alltså vara förklaringen till att ARR och i förlängningen NNT introducerats som ett alternativt sätt att presentera resultat på. NNT är inget konstigt i sig, det bara är inversen av ARR, en matematisk omformulering således. Vad som numera däremot kan observeras är att NNT har kommit att användas på fler sätt än vad som från början var tänkt.


Problemet med att jämföra NNT
Problemet med jämförelser av NNT för olika studier är bla att man måste förstå hur NNT påverkas av en studies uppföljningstid. Figur 1 illustrerar hur ett fiktivt resultat från en klinisk prövning kan se ut. Studien mätte dödsfall i två grupper, där en fick ett aktivt läkemedel med dokumenterad effekt på överlevnad och den andra fick placebo. Graferna visar hur stor andel i varje grupp som avled under studietiden. Vid studiens slut har 30 procent avlidit i placebogruppen och 15 procent i läkemedelsgruppen. Detta ger en ARR på 30 – 15 = 15 procentenheter. Enligt definitionen är RRR lika med ARR/andel händelser i kontrollgruppen, vilket ger 15/30 = 0,5; dvs 50 procent.
Om man tänker sig att denna studie inte fullföljdes utan avslutades efter halva tiden, hur påverkas då ARR och RRR? ARR blir enligt grafen 15 – 7,5 = 7,5 procentenheter och RRR blir 7,5/15 = 0,5; dvs 50 procent.
Förutsatt att effektskillnaderna är likvärdiga över tid (linjerna är raka) så ändras alltså inte RRR över tid. Vilken tidpunkt som helst i Figur 1 kan väljas, men RRR kommer alltid att vara 50 procent. Däremot förändras ARR med tiden. Om resultatet mäts tidigt i studien erhålls ett mycket lägre värde på ARR än om motsvarande mätning görs i slutet av studien. Eftersom ARR är direkt länkad till NNT (inversen) kan vi därmed dra slutsatsen att NNT också påverkas av tiden: ju längre en studie pågår desto lägre blir oftast NNT (detta gäller eftersom ARR i de flesta fall blir större ju längre tid en studie pågår, särskilt vid placebojämförelser). Den studie som haft längst uppföljningstid kommer därmed att generera lägst NNT.
Det är dock sällan som de studier som utvärderar kliniska effekter är designade på exakt samma sätt. Ofta skiljer de sig åt, till och med inom samma terapiområde, på en rad olika punkter:
• Studiepopulationerna är olika
• Effektmåtten är olika
• Interventionerna är olika
• Patienternas risknivåer (primär- eller sekundärprevention) är olika
• Olika kontrollbehandling.

Flera av dessa punkter är självklara, däremot kan det vara på sin plats att kommentera två av dem lite närmare.

Olika effektmått. Kan man tex jämföra riskreduktioner mellan en studie som undersökt antal symtomfria timmar hos patienter med kronisk smärta och en hjärt–kärlstudie som haft total mortalitet som primärt effektmått? En enskild studie kan dessutom generera flera olika effektmått: primära, sekundära osv. Alla effektmått i en studie har en ARR, vilket innebär att flera NNT-tal från samma studie kan beräknas. En studie genererar således inte alltid ett entydigt NNT att fatta beslut utifrån, vilket kan försvåra för beslutsfattaren.

Olika risknivåer. Vissa studiepopulationer studeras primärpreventivt och andra sekundärpreventivt. Att jämföra resultat från studier med lågrisk- respektive högriskpatienter kan vara svårt. Effekten av en sekundärpreventiv läkemedelsbehandling ger oftast högre ARR än effekten från en primärpreventiv. NNT bör alltså alltid vara lägre vid svårare sjukdomsgrader inom samma terapiområde, just därför att en behandling är mer effektiv ju högre en patientpopulations risknivå är.
Alla dessa faktorer inklusive uppföljningstiden, som tidigare nämnts, påverkar var och en för sig den absoluta riskreduktionen. Om ARR påverkas sker detsamma med NNT. Skall »riktiga« jämförelser av NNT göras mellan studier krävs det att de studier som jämförs inkluderat samma studiepopulation, använt samma effektmått och haft samma studieduration! Därmed inte sagt att ARR och NNT inte kan användas för att göra jämförelser mellan studier. ARR används bäst tillsammans med RRR för att beskriva en studies resultat. Är det så att man beskriver effekten av en intervention med tex det primära effektmåttets NNT måste även jämförelsealternativen, patientpopulationen och dess risknivå samt tidsperioden samtidigt beskrivas. Först då går det att avgöra om ett NNT-tal är »bra« eller »dåligt«. Vad som gäller för NNT gäller alltid också för ARR.


NNT alltid ett punktestimat
Behandling av kroniska sjukdomar syftar normalt till att förhindra de komplikationer som kan uppstå om sjukdomen förblir obehandlad. Exempel är stroke (hypertoni), hjärtinfarkt (hyperlipidemi) eller höftfrakturer (osteoporos). Ett sätt att dokumentera effekten på dessa händelser är att genomföra stora randomiserade studier som pågår under lång tid. Inom hjärt–kärlområdet är det att föredra om behandlingen visar effekt på reduktion av död eller hjärtinfarkt, sk hårda effektmått. Hur fungerar det att använda NNT i sådana studier?
I Ascot-exemplet var NNT 91 efter 3,3 års behandling. Sedan studien publicerats beskrevs resultatet som att «man måste behandla 91 patienter i 3,3 år med atorvastatin 10 mg för att undvika en kardiovaskulär händelse«. Men hur många händelser undviks om man behandlar samma population i 2 år, 6 år eller 20 år? Denna typ av behandling är som regel livslång och sträcker sig i allmänhet längre än uppföljningstiden i studien. ARR varierar med tiden. Därmed står det klart att vad NNT visar är en beskrivning av behandlingseffekten vid en given tidpunkt. Ascot-studien var tänkt att pågå i fem år men avslutades i förtid. Skulle NNT ha blivit annorlunda om studien pågått till det planerade slutet eller om den avslutats vid en annan tidpunkt? Sannolikt är det så – NNT fångar inte upp effekter över tid utan endast vid en given tidpunkt.
Det är viktigt att notera att ARR är ett punktestimat, vilket innebär att det representerar det mest sannolika värdet ur en serie av data. Dataserien täcker oftast ett stort intervall. Med andra ord blir även NNT ett punktestimat, som omges av ett konfidensintervall [12]. I Ascot är ARR med 95 procents sannolikhet mellan 0,51 och 1,5 procentenheter. Det betyder att NNT ligger mellan 67 och 196.


NNT alltid positivt
Det är dock inte alltid som studier har snäva konfidensintervall, vilket är fallet med de studier som inte visar en signifikant skillnad mellan behandlingsalternativen. Om ARR med konfidensintervall innefattar noll ger det direkt problem när NNT skall beräknas. NNT kan bara vara positivt. Vad som händer när ARR innefattar noll är att mycket stora intervall för NNT kan ses, från tex 40 till oändligheten [13]. Ett oändligt antal patienter för att få en positiv effekt i den övre delen av konfidensintervallet kan också översättas till att ett antal patienter får en negativ effekt av behandlingen (vilket ju styrks av det faktum att ARR också kan vara negativt).
Ett negativt NNT kan också benämnas NNH, »number needed to harm«. Skall man då ange ett NNT för ett icke-signifikant resultat? Förbryllar inte det mer än det hjälper? McQuay och medarbetare diskuterar kring detta och anser att konfidensintervall för NNT på icke-signifikanta resultat inte bör användas, utan endast punktestimatet [6]. I en artikel av Douglas Altman hävdas att NNT för icke-signifikanta resultat fyller sin funktion, då NNT inte bör beräknas på endast ARR från signifikanta resultat. I stället introducerar Altman ett alternativt koncept, där två olika NNT räknas fram, ett NNT för att få positiv effekt, NNT(benefit, B) och ett för risken att få negativ effekt, NNT(harm, H) [13]. I det fall ett konfidensintervall för ARR sträcker sig från ett negativt effektvärde till ett positivt kan NNT-intervallet tex beskrivas sträcka sig från NNTH 20 till NNTB 60. I de flesta fall där man försöker förenkla NNT måste nya begrepp introduceras. Frågan är om den enskilde läkaren eller beslutsfattaren blir klokare av detta. Vill man titta på icke-signifikanta studieresultat, vilket definitivt kan fylla en funktion, bör NNT inte användas utan bedömningen av effekten görs bäst utifrån ARR med tillhörande konfidensintervall.


NNT som filosofisk fråga
En filosofisk fråga som kan ställas är:Innebär ett NNT på 91 att de övriga 90 inte har någon nytta av behandlingen? Ja, det gör det, men endast om effekten av interventionen är momentan, tex vid elkonvertering vid hjärtflimmer [14]. När det gäller kroniska sjukdomar är det annorlunda. NNT är vanligen (och bör vara) beräknat utifrån det primära effektmåttet. Vad som ingår i det primära effektmåttet är då viktigt. Om tex 50 patienter måste behandlas i ett år för att 1 dödsfall (primärt effektmått) skall undvikas, är det då rimligt att tro att de övriga 49 inte fått någon effekt alls av behandlingen? Troligtvis har studiepopulationen (om det tex är en hjärtsjuk population) också undvikit andra hjärt–kärlhändelser under samma tidsperiod. Dessa var dock inte definierade i det primära effektmåttet och fångades därmed inte upp med effektmåttet NNT.
Exemplet illustrerar problemet när NNT-talet ibland används för dikotomt, dvs att man antingen får eller inte får effekt av behandlingen. Wisløff och medarbetare [17] har redogjort för en serie kontrollfrågor som är relevanta för att bedöma NNT-tal från olika studier (Fakta 1).


NNT, QALY och kostnadseffektivitet
Kan den effektparameter, oftast den primära, som NNT baseras på fånga hela nyttan av en terapi? Nytta visas också i regel i sekundära eller tertiära effektmått. Dessa skillnader blir inte statistiskt signifikanta då en studie inte dimensionerats för att detektera skillnader mellan grupperna avseende dessa parametrar. NNT baserat på det primära effektmåttet kan då ge en underskattning av den verkliga nyttan av en behandling.
På samma sätt som NNT inte fångar hela effekten av en behandling, inte heller över tid, tas inte alla kostnader med i beräkningen när kostnader och effekter relateras till NNT. Således är det svårt att göra beräkningar på en behandlings kostnadseffektivitet korrekt.
En ekonomisk utvärdering kan aldrig bli bättre än vad kvaliteten på bakomliggande effektdata tillåter. Därför är det viktigt att effektmåttet visar den verkliga effekten av en behandling [15]. I en ideal hälsoekonomisk utvärdering insamlas samtliga relevanta kostnader för alla behandlingsgrupper från första dagen i en studie till studiens slut, dvs behandlingens effekt på samtliga kostnader utvärderas över hela studietiden.
Ett alternativt beräkningssätt, ofta kallat »poor man´s cost-effectiveness«, figurerar ibland. Genom att man utifrån Ascot-studiens resultat multiplicerar kostnaden för atorvastatinbehandling med 91 patienter och 3,3 år erhåller man en kostnad per primär händelse som man undviker. Detta är dock ett ofullständigt sätt att beräkna kostnadseffektiviteten för en behandling, beroende på att för statinbehandling, liksom för andra behandlingar som ges under lång tid, är tidpunkten när effekten mäts mycket viktig. Interventioner med statiner förhindrar sällan hjärt–kärlhändelser slutgiltigt utan skjuter i stället fram dem i tiden. Resultat från NNT-beräkningar kan vara missledande såtillvida att beslutsfattaren tror att händelsen inom den definierade tidsperioden är undviken för evigt och att endast en person har nytta av behandlingen.
Det korrekta effektmåttet att använda borde i stället vara antal vunna kvalitetsjusterade levnadsår (QALY) [15]. Beräkningar utifrån QALY är också det som Läkemedelsförmånsnämnden (LFN) förordar vid ekonomiska utvärderingar av läkemedel. Enligt LFNs riktlinjer bör tidshorisonten vara den period då de huvudsakliga hälsoeffekterna uppstår och de huvudsakliga sjukvårdsresurserna utnyttjas [16]. QALY tar hänsyn till effekter över tid och mäts som »arean under kurvan«. Då spelar det ingen roll när effekten mäts, utan jämförelsealternativens areor jämförs vid någon tidpunkt och en bild fås över hur många kvalitetsjusterade levnadsår respektive behandling ger. Därefter kan kostnaden per vunnet QALY beräknas, vilket görs genom att hänsyn tas till dels de kostnader som uppstår till följd av interventionen, dels de kostnader man undviker till följd av minskat antal oönskade händelser. Då har en korrekt beräkning för en behandlings kostnadseffektivitet genomförts.


NNT – sunt och dumt
Att använda NNT ensamt som effektmått av en intervention kan vara ett problem, eftersom det är beräknat vid en enda tidpunkt och eftersom måttet inte fångar effekter över tid. Svårigheten att använda NNT som underlag vid resursallokeringar för hälso- och sjukvården blir tydlig, då man inser att det inte går att jämföra studier och terapiområden med varandra då olikheterna mellan studierna har alltför stor påverkan på NNT. Som alltid när en analys skärskådas är det viktigt att man också får klart för sig vilket effektmått, vilken tidsperiod, vilka patienter och vilken patienternas risknivå studien använde.
Detta kräver mer av beslutsfattaren men är nödvändigt för att inte felaktiga beslut baserade på NNT skall fattas, bara för att måttet är »enkelt och lätt att använda«.
Är då NNT som underlag för beslutsfattande sunt eller dumt? Sunt är det såtillvida att NNT är ett hjälpmedel för att tydligare åskådliggöra ARR från kliniska prövningar, och NNT kan användas som ett av flera mått för att beskriva effekt. Dumt blir det när studier från olika terapiområden jämförs rakt av. Då blir det jämförelser av äpplen och päron. Dumt blir det också när ekonomiska analyser grundar sig på en studies NNT. Metoden är långtifrån likvärdig med en hälsoekonomisk analys och har också många tillkortakommanden, bla att den fulla effekten av ett läkemedel på andra kostnader inte fångas upp. Därtill finns problemet att NNT beräknats vid en specifik tidpunkt och inte över tid. NNT har därmed ingen roll som underlag för resursallokeringar inom hälso- och sjukvården, utan i stället bör välgjorda hälsoekonomiska analyser användas, precis som LFN förordar i sina riktlinjer för ekonomiska utvärderingar.

Potentiella bindningar eller jävsförhållanden: Författaren är anställd som hälsoekonom på AstraZeneca Global R&D, Lund. Alla synpunkter, åsikter och slutsatser är dock författarens egna och representerar ingen särskild ståndpunkt från AstraZeneca Global R&D eller AstraZeneca AB Sverige.

Fakta 1

Kontrollfrågor när interventionseffekter är angivna med NNT (fritt översatt från Wisløff, et al [17])

• Påverkar interventionen en eller flera händelser (effektmått)?
• Vilken händelse har NNT beräknats på?
• Vid vilken tidpunkt har NNT beräknats?
• Anges det vad NNT är vid andra tidpunkter?
• Är konfidensintervallet för NNT korrekt beräknat när konfidensintervallet för absolut riskreduktion innehåller noll?
• Har NNT tolkats som ett uttryck för den andel som har nytta av interventionen?
• Har NNT för olika riskgrupper angetts?
• Har NNT använts för att beräkna kostnad per händelse som undviks?

Figur 1. Hypotetiskt exempel på överlevnad i två grupper under en tidsperiod.