Vid utvärdering av möjlig effekt av en behandling, intervention eller annan åtgärd studeras samma individ minst två gånger, nämligen före och efter behandlingen i fråga. Datamaterialet kommer alltså att bestå av par av värden från varje individ, vilket måste beaktas vid valet av statistisk analysmetod. En annan viktig faktor, som är avgörande för valet av statistisk verktygslåda, är datamaterialets matematiska egenskaper (Fakta 1 och Fakta 2).


Variablers mätbarhet
Vilken eller vilka variabler påverkas av behandlingen, och hur är dessa operationellt definierade? Utvärdering av en behandling kan inbegripa olika typer av variabler, tex sådana som operationellt definieras utifrån fysikens eller kemins lagar, såsom tryck, temperatur, längd och koncentration. Mätning av dessa variabler ger upphov till kontinuerliga, kvantitativa data även om man i vissa studier väljer att kategorisera datamaterialet till mätnivåer med begränsade matematiska egenskaper [1, 2].
En annan stor grupp av variabler representerar olika typer av kvaliteter, som normalt inte kan operationellt definieras utifrån standardiserade fysikaliska lagar utan utifrån subjektiva värderingar eller bedömningar. Det kan vara livs-, hälso- eller vårdkvalitet, förmåga, funktion, sjukdomsgrad eller någon annan mer eller mindre komplex egenskap som bedöms av expert, närstående person eller av studiepersonen själv. Datainsamlingen består då i att den aktuella variabeln klassificeras eller bedöms på en skala med ett antal kategorier. Skalkategorierna representerar ofta en ordning och kan ha mycket varierande utseende, från siffror, figurer, positioner på en linje till mer konkreta ord och beskrivande meningar.


Frestelsen att använda matematik
Oavsett utseendet består ett datamaterial från bedömningar på skalor av ordnade kategorier [1, 2]. Karakteristiskt för denna mätnivå, som brukar kallas för ordinal, är att datamaterialet har en ordningsstruktur men saknar egenskaperna storlek och avstånd.
En person som tex bedömer sin oro till 4 på en 5-gradig skala är inte självklart dubbelt så orolig som en person med oro 2, och en ändrad bedömning från »mycket orolig« till »lite orolig« antyder minskad oro, men informationen innehåller ingen uppgift om storleken på förändringen, utan dataparen ger information endast om huruvida patienten har blivit bättre eller sämre, inte om förändringens storlek. En jämförelse av upprepade bedömningar på en skala ger information endast om förändringens riktning mot en högre, oförändrad eller lägre kategori, men information saknas om förändringens storlek [1-5]. Det innebär att addition och subtraktion inte är meningsfulla matematiska operationer på ordinaldata, och detta får påtagliga konsekvenser vid analys av förändring i bedömningar på skala. Dessa begränsade matematiska egenskaper hos ordinaldata kan tyckas besvärande, eftersom de vanligaste och mest välkända statistiska metoderna är baserade på matematiska beräkningar av summor, differenser och kvoter.
Det är ett väldokumenterat faktum att många faller för frestelsen att hantera ordinaldata som om de vore kvantitativa data med matematiska egenskaper, såsom väl definierade avstånd mellan kategorierna och känd standardiserad storlek [3, 4].
Syftet med artikeln är att ge exempel på klassiska statistiska metoder som är tillämpliga för analys av förändring i en variabel som bedöms på en skala. Valet av frågeställning och dess konsekvens på statistisk bearbetning men också på den information som de statistiska metoderna ger demonstreras på ett fiktivt datamaterial. Frågeställningarna avser beskrivning av förändring, hypotesprövning, intervallskattning. Jag har valt att utgå från en kortfattad resultatformulering och därefter redogöra för statistiska metoder och även kommentera hur datamaterialets mätnivå avgör val av statistisk metod.


Variabeln är »besvär«
Eftersom syftet är att visa på lämpliga statistiska verktyg för utvärdering av förändring i en egenskap/ett tillstånd som skattas på en skala kallar jag variabeln allmänt för »besvär«, vilket skulle kunna betyda illamående, klåda, smärta eller någon annan form av besvär. Antag att graden av besvär bedöms på en skala med sex ordnade verbala kategorier: inga besvär (A), mycket lätta besvär (B), måttliga besvär (C), påtagliga besvär (D), mycket stora besvär (E) och extrema besvär (F). Förändringen avser behandlingseffekt, och 20 individer har skattat sina besvär före och efter behandlingen.


Beskrivning av förändring
Vid uppföljningen bedömde 14 av 20 patienter (70 procent) sina besvär till en lägre nivå och två (10 procent) till en högre nivå än vid bedömningen före behandlingen.

En allmän regel är att statistisk bearbetning av förändringsdata skall ta hänsyn till att varje individ representeras av två värden. Datamaterialet, som innehåller information om förändringen i skattad besvärsnivå mellan de båda tillfällena (före och efter behandling), består av par av kategorier, betecknade från A (inga besvär) till F (extrema besvär), och förändringsmönstrets utseende beskrivs lämpligen av frekvensfördelningen av hur dessa datapar fördelar sig på de 6 6 möjliga celler i en korstabell (kontingenstabell) som representerar de 36 möjliga kombinationerna av par av bedömningar på en skala med sex kategorier (Figur 1, Fakta 3).
Av frekvensfördelningen i kontingenstabellen (Figur 1) framgår att fyra patienter (20 procent) hade samma besvärsnivå vid båda tillfällena. Dataparen i cellerna nedanför huvuddiagonalen representerar de 14 patienter (70 procent) som angav en lägre besvärsnivå, och paren (D, E) och (E, F) representerar två patienter med en högre besvärsnivå efter behandlingen. Frekvensfördelningen i tabellen beskriver det individuella förändringsmönstret, och de två frekvensfördelningarna på marginalerna ger kompletterande information om hur gruppens bedömningar fördelade sig på besvärsskalan vid respektive tillfälle. Av dessa kan vi konstatera att gruppens genomsnittliga besvärsnivå har ändrats, eftersom mediankategorin var påtagliga besvär (D) före och måttliga besvär (C) efter behandlingen.


När medianen inte är entydig
För material som består av ett jämnt antal observationer av ordinaldata är medianen inte alltid entydigt bestämd, eftersom egenskapen avstånd saknas. Det innebär att medianen inte kan beräknas utifrån medelvärdet av det två mittersta observationerna i rangordning, som brukligt är för kvantitativa data. I vårt material av 20 individer var de två mittersta individernas värden lika, men vad är medianen då det inte är så, tex om individerna nummer 10 och 11 i rangordning har bedömt sig till mycket lätta besvär (B) respektive måttliga besvär (C)? Svaret är att båda värdena representerar medianen [6]. Om det känns viktigt att ange en mediankategori skall man i förväg bestämma hur medianen skall definieras. Samma förfarande gäller för bestämning av kvartiler och andra percentiler. Av marginalfördelningen (Figur 1) för skattade besvär före behandling framgår att måttliga besvär (C) (individerna 5 och 6) utgör första kvartilen, men som tredje kvartil kan både kategori E och F användas, eftersom individerna 15 och 16 har olika värden. Ett förslag är då att använda den kategori som representerar det sämre tillståndet, extrema besvär (F), och att konsekvent göra så i studien (Fakta 4).


Hypotesprövning och P-värde
Vetenskapliga rapporter brukar inte innehålla enbart statistiska beskrivningar utan även ett eller flera P-värden [4, 7, 8] (Fakta 5). Statistisk analys av datamaterialet i Figur 1 kan ge underlag till följande summariska resultatformulering.

Vilka statistiska analysmetoder ligger bakom resultatet och vad är egentligen det statistiska budskapet värt? Den generella slutsatsen baseras på statistisk hypotesprövning, i vilken forskarens hypotes ställs mot den statistiska nollhypotesen.
Enligt nollhypotesen förväntas det i en relevant population vara lika chans (50 procent) till förbättring som till försämring, vilket innebär att behandlingen saknar effekt i det långa loppet. Förutsatt att nollhypotesen vore sann, dvs att det inte finns någon behandlingseffekt, hur vanligt är det då att få det aktuella studieresultatet? Observera att inför analysen används endast de 16 patienter som uppvisar en förändring och att förändringen uttrycks dikotomt i ett av alternativen lägre respektive högre nivå efter behandling [4].
Den statistiska uppgiften blir att skatta sannolikheten att bland 16 patienter observera den aktuella obalansen (14 mot 2) eller en ännu extremare obalans i behandlingseffekt, när man under nollhypotesen förväntas observera lika många (8) med lägre som med högre nivå efter behandling. Denna sannolikhet kan skattas exakt med hjälp av binomialfördelningen, som är den sannolikhetsfördelning som beskriver en population av dikotoma data. Man kan också utnyttja att binomialfördelningen i vissa fall kan approximeras till Gaussfördelningen (normalfördelningen) och använda teckentestet för test av skillnad mellan parade proportioner (Fakta 6 och 7).


Förkasta eller inte förkasta nollhypotesen
Eftersom testet används på dikotoma data blir inverkan av varje observation på testvärdet stort, speciellt för små datamaterial. Därför bör teststatistikan (z-värdet) korrigeras inför bestämning av P-värdet [4, 9]. I vårt exempel är zc=2,75, vilket antyder att det är högst osannolikt att vårt stickprovsresultat skulle kunna inträffa om nollhypotesen vore sann, eftersom detta värde motsvarar en sannolikhet på 0,6 procent (P= 0,006) i normalfördelningen. Det innebär att det är ytterst osannolikt att minst 14 individer av 16 skulle uppvisa ändrad besvärsnivå vid det andra mättillfället om behandlingen hade varit utan effekt.

Resultatet ger oss starka skäl (evidens) att förkasta nollhypotesen till förmån för mothypotesen, som säger att behandlingen i det långa loppet kommer att ha en besvärssänkande effekt på majoriteten i en relevant population. Det alternativa McNemars test ger X2 = 7,56, vilket är ett ovanligt värde i c2-tvåfördelningen för en frihetsgrad, P=0,006, alltså samma resultat som med teckentestet för skillnad mellan parade proportioner [4, 9].

Det bör påpekas att det finns flera olika test vars teststatistikor är (chi)2-fördelade under nollhypotesen. De olika testen för skillnad i kategorifördelning mellan två eller flera oberoende grupper kallas olyckligt nog (chi)2-test, och ofta betecknas även teststatistikan med (chi)2, som är beteckningen för den teoretiska sannolikhetsfördelningen. Vid analys av förändring skall ett test av skillnad mellan parade/beroende data användas, och valet är då antingen McNemars test eller teckentestet för skillnad mellan parade proportioner.
Statistiska test ger inte någon information om hur mycket bättre patientgruppen blir utan bara att stickprovsresultatet avviker starkt från ett förväntat resultat om nollhypotesen hade varit sann. Nollhypotesen är antingen sann eller inte. Vi har inte facit. Men med hjälp av en bra upplagd studie och statistisk metod kan vi få underlag till att fatta beslutet att förkasta eller inte förkasta nollhypotesen, och risken att förkasta en sann nollhypotes uttrycks i P-värdet. Observera att nollhypotesen »lika behandlingseffekt« inte kan testas med denna typ av hypotesprövning, utan det krävs en annan analysteknik för att bevisa sådan ekvivalens [10, 12].


Den statistiska felmarginalen, konfidensintervallet
Av det statistiska testet kan vi vara säkra på att andelarna som sänker respektive höjer sin besvärsnivå inte är lika. Med hjälp av en statistisk metod kan vi beräkna ett intervall, som skulle kunna kallas »den statistiska felmarginalen«, nämligen det 95-procentiga konfidensintervallet (95 procents CI) för skillnaden mellan parade proportioner [4, 7-12]. Resultatet kan då formuleras så här.


Vad ger konfidensintervallet för information?
Den statistiska metod som vi använder för att beräkna konfidensintervallet är sådan att på ett stort antal upprepade likadana studier skulle den andel av de beräknade intervall som anges av konfidensgraden täcka parametervärdet. Konfidensgraden är ofta 95 procent, vilket betyder att 95 av 100 intervall för upprepade likadana studier skulle täcka parametervärdet. Nu utförs endast en studie, och ett 95 procents konfidensintervall beräknas. Vi vet inte om just detta intervall är ett av dem som täcker parametern, men vi kan vara ganska säkra på att det gör det, och konfidensgraden uttrycker denna säkerhet. Så enligt den aktuella studien kan vi vara 95-procentigt säkra på att efter behandling av en relevant population förväntas mellan 31 och 89 procentenheter fler patienter få minskade besvär snarare än ökade besvär. Baserat på det aktuella stickprovsresultatet uppskattas parametervärdet ((Delta)p), dvs den »sanna skillnaden« i andelen patienter med förändrade besvär, till ett värde mellan 31 och 89 procentenheter.


Beräkning av konfidensintervallet för förändring
Beräkningen av det 95-procentiga konfidensintervallet för skillnaden mellan parade proportioner baseras på antalet patienter med skattad lägre besvärsnivå (b=14) och med skattade högre nivå (c=2) och totala antalet patienter n=20 [4]. Medelfelet för den procentuella skillnaden (0,60) är 0,148, vilket ger ett 95-procentigt konfidensintervall mellan 31 och 89 procentenheter. Konfidensintervallet täcker inte nollhypotesens skillnad mellan proportioner – som är 0 procent – vilket också verifieras av att nollhypotesen förkastades på starka grunder (P=0,006) vid hypotesprövningen. Däremot är konfidensintervallet brett, vilket betyder att det statistiska underlaget på 20 patienter är så litet att stickprovsresultatets 60 procentenheter i det långa loppet skulle kunna betyda allt från 31 till 89 procentenheter.


Storleken har betydelse
Det fiktiva exemplet består av par av subjektiva skattningar från 20 individer. Resultaten visar på statistiskt säkerställd förändring av besvärsnivån, men konfidensintervallet är brett, vilket betyder att det är svårt att skapa ett generellt mått på behandlingens effekt för en relevant population, och det skulle vara statistiskt svårt att påvisa eventuella skillnader i behandlingseffekt mellan olika grupper.
Figur 2 visar samma förändringsmönster som Figur 1 men med ett fem gånger så stort material. Andelen patienter med lägre besvärsnivå efter behandling är samma som tidigare, men underlaget ger starkare skäl att förkasta nollhypotesen och även smalare konfidensintervall (Tabell I).


Val och konsekvens
Forskningens kvalitet bestäms av den svagaste länken i studien. Valet av mätmetod och studiedesign får konsekvenser för valet av statistiska metoder, så en eventuell kontakt med statistiker skall ske tidigt. Altman [4, 13] har granskat ett stort antal vetenskapliga artiklar och nämner bla nedanstående grundläggande fel i analys och presentation:
att analysera parade data som oparade
att behandla upprepade observationer på individen som oberoende
att inte ta hänsyn till ordnade kategorier
att använda analysmetoder när förutsättningar för dem inte är uppfyllda
att ge konfidensintervall som innehåller omöjliga värden
att presentera resultat endast som ett P-värde.

Teckentestet, McNemars test och konfidensintervallen för proportioner är typiska testmetoder för dikotoma data, dvs för datamaterial som är grupperade i två kategorier [1, 4, 9]. På grund av de begränsade matematiska egenskaperna hos ordinaldata är det dessa klassiska metoder som är lämpliga för analys av förändring i ordinaldata, eftersom förändring i ordinaldata inte kan definieras av skillnad mellan värden före och efter. Konsekvensen är att den mera utförliga information som finns i data som består av fler än två ordnade kategorier går förlorad. Om forskarens frågeställning och syfte överensstämmer med ovan nämnda metoder är det dessa som är relevanta för analys av förändring i ordinaldata. Det finns dock mycket mer information att hämta ur ett datamaterial som består av par av ordnade bedömningar för att utvärdera förändring, vilket kommer att belysas i en kommande artikel.
Andra vanliga statistiska test av förändring är det icke-parametriska Wilcoxons teckenrangtest och det parametriska Students parade t-test. Varför är inte dessa test tillämpliga på analys av förändring av ordnade kategoridata? Wilcoxons teckenrangtest baseras på att differenser mellan individernas mätvärden rangordnas, men beräkning av differenser av ordinaldata är inte relevant, eftersom begreppet avstånd inte är definierat. Students t-test ställer stora matematiska krav på datamaterialet, som består av kvantitativa förändringsdata. För kvantitativa data är det vanligt att förändring definieras som skillnaden mellan individens båda värden eller som kvoten mellan dem. Det viktigaste kravet är att datamaterialet, som utgörs av differenser eller logaritmerade kvoter, skall kunna antas tillhöra en population normalfördelade eller approximativt normalfördelade data. Inget av villkoren kan uppfyllas av subjektiva bedömningar som görs på skalor av olika slag [1, 4, 14].


Meningslöst att synda i statistik
Om man trots allt frestas att använda dessa test skall man tänka på att resultaten gäller endast om förutsättningarna för testen är uppfyllda, eftersom testen utnyttjar dessa förutsättningar i sannolikhetsberäkningarna. Testresultaten är giltiga endast under förutsättning att de krav på datamaterialet som analyserna utnyttjar är uppfyllda, därför är det meningslöst att synda i statistik!
*
Potentiella bindningar eller jävsförhållanden: Inga uppgivna.


Figur 1. Kontingenstabell över frekvensfördelningen av datapar som visar hur 20 individer bedömde sina besvär på en skala från A (inga besvär) till F (extrema besvär) före och efter en behandling.



Figur 2. Frekvensfördelningen över förändring i skattade besvär bedömda på en skala från A (inga besvär) till F (extrema besvär) före och efter en behandling.