Experter gör det, patienter gör det, barn och vuxna gör det – värderar och bedömer egenskaper såsom funktion, förmåga, kvalitet, upplevd hälsa, oro, smärta, lycka mm. Kännetecknande för dessa variabler är att definitionen av dem, både teoretiskt och operationellt, beror på sammanhanget och tilllämpningsområdet. Det finns inga standardiserade regler för hur en egenskap som inte entydigt definieras av en fysikalisk eller kemisk lag skall mätas, och bedömningarna kan göras av personer med olika roller, tex studiepersonen, en närstående eller en utomstående bedömare. Enkäter, skalor och olika former av mer eller mindre komplicerade bedömningsformulär är vanliga för mätning av denna typ av variabler, och det finns en uppsjö av olika formulär (mätinstrument) för att mäta samma variabel [1-3]. Detta är en av anledningarna till att studier med liknande syften kan vara upplagda och genomförda på olika sätt och ibland ge divergerande resultat, vilket kan vara både frustrerande och stimulerande. Statistisk metodik är ett nödvändigt verktyg i vetenskapliga studier och för värdering av det vetenskapliga underlaget till evidensbaserade beslut. Valet av design får konsekvenser för den statistiska bearbetningens relevans och för resultatens tolkningsbarhet och giltighet. Valet av mätmetod och i vilken form mätvärdena skall användas i studien avgör datamaterialets matematiska och statistiska egenskaper och därmed vilken statistisk verktygslåda som är lämplig för bearbetning och analys.

Syftet med denna artikel är att fästa uppmärksamheten på hur valet av mätmetod får konsekvenser för valet av statistisk verktygslåda samt att ge en grund för kommande artiklar med exempel på statistiska lösningar på olika typer av frågeställningar inom kliniska studier.




Operationalisering – länken mellan teori och mätning

Det finns olika anledningar till att genomföra en studie. Syftet kan vara att studera en eller flera egenskaper eller fenomen för att beskriva, kartlägga, utvärdera eller för att verifiera en hypotes, visa på en effekt, visa på en relation eller dylikt. Forskningsfrågan leder in på mätprocessen och på operationaliseringen (Fakta 1), som är länken mellan den teoretiska och den mätbara definitionen av variabeln. Vad skall mätas, hur skall egenskapen mätas och, framför allt, i vilken form skall mätvärdena användas i beskrivning och analys? Vad är variabelns roll i studien: är den huvud-, bakgrunds- eller förklarande variabel? Det är ett komplext samspel mellan bakomliggande mätteorier, forskningsfrågans natur, resultatens betydelse och den operationella definitionen av variabeln [4-6].

Figur 1 ger exempel på länken mellan operationell definition, mätning och datamaterialets egenskaper för variabeln »fysisk belastning«. Fysisk belastning kan definieras som den tid som en person tillbringar stående vid ett arbetsmoment, eller som tillryggalagd gångsträcka under en arbetsdag men kan också definieras utifrån vilka och hur många belastande arbetsställningar man har i arbetet. De olika operationella definitionerna av fysisk belastning kan komplettera varandra i samma studie.




Statistiskt viktiga mätnivåer

De statistiskt viktiga egenskaperna hos olika typer av data kan karakteriseras av de mätnivåer som anges i Figur 1 och Tabell I. Dikotoma data består av två möjliga värden, eftersom datamaterialet grupperas i endast två kategorier. En indelning i fler kategorier, tex efter typ av belastande arbetsställningar, ger kategoridata utan ordningsstruktur; denna typ av data kallas nominal [7].

Bedömning på olika typer av skalor resulterar i ordnade kategoridata eller ordinaldata. Kännetecknande för ordinaldata är att mätvärdena har en ordningsstruktur men saknar information om storlek och avstånd [7-11]. Detta innebär att påståenden om »smärtlindring« eller »ökning av livskvalitet« kan verifieras, men däremot kan inte påståenden av typen »smärtan halverades« eller »livskvaliteten ökade med 30 procent« bli resultat av upprepade bedömningar på en skala.

De ordnade kategorierna i en skala kan ha olika utseenden. De kan utgöras av ord (inga, lätta, måttliga, svåra besvär), beskrivande meningar eller av flera väl definierade kriterier för de olika nivåerna av tillstånd, som vid bedömning av reaktionsgrad enligt Reaction Level Scale (RLS85) [12], men kategorierna kan också betecknas med siffror, bilder eller andra symboler. Skattningar på en visuell analog skala (VAS) ger upphov till i det närmaste kontinuerliga ordinaldata [13]. VAS består ofta av en 100 mm rät linje, och mätningen består i en markering på linjen mellan det värsta och det bästa tänkbara tillståndet. De 101 positionerna på VAS, definierade från linjens ena ändpunkt, utgör de möjliga mätvärdena för den bedömda variabeln (Fakta 2).




Siffrornas frestelse

Det är mycket vanligt att de olika kategorierna i en skala symboliseras av eller kodas om till siffror. Sifferbeteckningarna saknar matematisk innebörd utöver ordning och skall alltså inte uppfattas som matematiska tal. Detta är visserligen mycket vanligt, och frestelsen är stor att tillskriva siffrorna inte bara den ordningsstruktur som de är satta att symbolisera utan även matematiska egenskaper som den aktuella mätnivån inte har [5, 11, 14]. Beräkning av summor, differenser, medelvärden mm är inte meningsfull för ordinaldata men är extremt vanligt förekommande. Sifferbeteckningarna är endast koder för kategoriernas ordningsstruktur och skall kunna bytas ut mot en annan uppsättning av ordnade symboler utan att detta påverkar resultatet av den statistiska bearbetningen. Detta är för övrigt ett sätt att kontrollera om man valt relevant statistik.




Kvantitativa data – inget enhetligt begrepp

Den statistiskt högsta mätnivån representeras av tal med matematisk innebörd, dvs av kvantitativa data. Detta innebär att uttryck som »dubbelt så mycket«, »en ökning med 3 cm« har väldefinierade betydelser. Kvantitativa data är inte ett enhetligt begrepp utan innefattar datamaterial med olika typer av begränsningar, men gemensamt är att värdena har en matematiskt väl definierad innebörd av storlek och avstånd.

Antalsdata, såsom antal attacker, antal barn per familj, antal återbesök är diskreta kvantitativa data. Fysikaliska egenskaper, såsom längd, tid och koncentration, kan registreras av standardiserade mätinstrument. Mätning av dessa variabler ger upphov till kontinuerliga kvantitativa data, tex kroppslängd 168,3347 cm, även om antalet decimaler reduceras till ett fåtal eller utesluts vid registreringen.

Mätning av många biologiska variabler ger icke-negativa datamaterial. Det är inte möjligt att en person har ett negativt värde på blodvariabler, såsom S-kolesterol och B-glukos. Icke-negativa data är ofta snedfördelade. Detta har betydelse för den statistiska bearbetningen, vilket kommer att demonstreras i nästa avsnitt. Om variabeln som studeras är »ändring i S-kolesterol« är både negativa och positiva värden möjliga.




Missförstådd klassificering

Ett datamaterials egenskaper benämns på olika sätt i litteraturen [4]. Vanliga begrepp är kvantitativa/metriska/numeriska data och kvalitativa/kategoriska/icke-numeriska data, men även mer detaljerade uppdelningar förekommer. Stevens’ [7] klassificering av mätnivåer i nominal, ordinal, intervall och kvot är mycket ofta använd och missförstådd. Han kallar mätnivåerna för skaltyper, vilket lätt kan missförstås och blandas ihop med de bedömningsskalor som används för att skatta olika egenskaper eller tillstånd och som ger upphov till ordnade kategoridata.

Data från bedömningar på skalor tillskrivs ibland ha egenskapen av att vara intervall- eller semiintervalldata (nästan intervalldata) i ett försök att tillskriva ordnade kategoridata metriska egenskaper. Men intervalldata är kvantitativa data med metriska egenskaper, såsom linearitet, väl definierade avstånd och storlek, men kvoten mellan två mätvärden samt nollpunkten beror på den enhet som variabeln mäts i, vilket är viktigt att beakta endast om man vill jämföra resultat som baseras på mätningar i olika enhetssystem, tex vid temperaturmätning. Tekniskt är detta löst genom att man använder det internationella enhetssystemet, där absoluta temperaturskalan används vid definition av fysikaliska lagar.




Variabelns funktion kan styra val av mätnivå

Variabelns funktion som huvud-, bakgrunds- eller förklarande variabel kan också styra valet av mätnivå. I Tabell I förekommer blodtryck på flera mätnivåer. Om blodtrycksmätning skall användas för att gruppera individer i »hypertoniker/icke-hypertoniker« enligt något kriterievärde så dikotomiseras de kontinuerliga blodtrycksvärdena. Blodtrycksdata kan också kategoriseras som ordinaldata, tex »lågt, normalt, högt tryck«. Kontinuerliga kvantitativa mätvärden kan alltså ge upphov till datamaterial på olika mätnivåer, vilket får konsekvenser för valet av lämplig statistisk verktygslåda.




Relationen mellan mätnivå och statistisk beskrivning

Tabellen över baslinjedata för de patienter som deltog i multicenterstudien UK Prospective Diabetes Study (UKPDS) [15] ger en utmärkt illustration till statistisk beskrivning av olika typer av data. Tabell II visar ett urval av de variabler som presenterades, och jag kommer att använda dessa för att belysa relationen mellan mätnivå och val av statistisk metod för beskrivning av datamaterial.

Mätnivån dikotoma data representeras av kön och medicinering med blodtryckssänkande preparat (ja/nej). Könsfördelningen redovisas som frekvensfördelning, dvs antal män och kvinnor, men kunde också ha redovisats som procentuell andel män (61 procent) förutsatt att det underliggande antalet individer redovisas. Det räcker att ge en av andelarna i dikotoma data, som tex att andelen patienter som använde blodtryckssänkande medicin var 12 procent.

Ordnade kategoridata, ordinaldata, representeras av bedömningar av alkoholkonsumtion och fysisk aktivitet på fyrgradiga skalor med verbala svarsalternativ. Den procentuella fördelningen av patienter på de olika kategorierna beskriver datamaterialen. Av beskrivningen framgår att 22 procent uppgav »ingen alkoholkonsumtion« och att 35 procent var »måttligt fysiskt aktiva«. Ordinaldata kan också beskrivas med de sammanfattande måtten median och kvartiler (medianansatsen). Medianen är det värde/den kategori som delar in det rangordnade materialet i två lika delar [5]. Medianen kallas också femtionde percentilen (P50), eftersom 50 procent av individerna i datamaterialet har ett värde som är högst medianens värde. I medianansatsen ger kvartilerna Q1 och Q3 information om spridningen. Den första kvartilen, Q1, är detsamma som P25, och den tredje kvartilen, Q3, är P75.

Mediankategorin för alkoholkonsumtion är »social konsumtion«, eftersom 22 procent av patienterna angav »ingen konsumtion« och de efterföljande 56 procent uppgav »social konsumtion«. Användning av kvartiler som spridningsmått för alkoholkonsumtion är inte särskilt informativ i detta material, eftersom både första och tredje kvartilen finns representerade i kategorin »social konsumtion«. Då kan det vara en fördel att redovisa den procentuella fördelningen av individerna på de olika kategorierna, som i Tabell II, och eventuellt komplettera i texten med mediankategorin och någon percentil, tex att P78 är »social alkoholkonsumtion«, dvs att 78 procent av personerna uppgav ingen eller social alkoholkonsumtion. Den statistiska beskrivningen av fysisk aktivitet är att mediankategorin och första kvartilen är »måttligt aktiv« och tredje kvartilen »aktiv«.

Enligt Tabell II har mätningarna av variablerna ålder, vikt, totalkolesterol, triglycerider och fasteplasmaglukos, FPG, registrerats som kontinuerliga kvantitativa data. Trots att dessa variabler representerar samma mätnivå har olika statistiska ansatser använts för att beskriva datamaterialen. Medelvärdesansatsen har använts för att beskriva patienternas genomsnittliga ålder, vikt och totalkolesterol och på transformerade (se förklaring nedan) triglyceriddata. Medianansatsen har använts för att beskriva genomsnittlig FPG-nivå. Observera att både median- och medelvärdesansatserna är sammanfattande mått och inte alltid ger en rättvis bild av datamaterialet. Att studera materialets frekvensfördelning i punktdiagram eller histogram kan ge värdefull kompletterande information [5].

Författarnas val av olika statistiska mått för att beskriva kvantitativa kontinuerliga data ger inte bara information om genomsnittsvärden för gruppen utan också indirekt information om deras antagande om datamaterialens bakomliggande sannolikhetsfördelningar och därmed också om motivet till val av parametriska och icke-parametriska statistiska metoder i den fortsatta analysen [5]. Medelvärdesansatsen kan användas för sådana kvantitativa data som antas tillhöra en population av normalfördelade värden, vilken bla kännetecknas av att värdena fördelas symmetriskt kring sitt medelvärde (Fakta 4).

Anledningen till att medianansatsen används för att beskriva vissa kvantitativa datamaterial, såsom FPG, är att materialet är positivt snedfördelat med ett antal extremt höga värden, vilket är mycket vanligt hos icke-negativa data. Medelvärdet är ett missvisande lägesmått för snedfördelade data, eftersom beräkningen baseras på summering av mätvärden. Medianvärdet, däremot, påverkas inte av extremvärden. Kännetecknande för positivt sneda fördelningar är att medianen är mindre än medelvärdet. Den positivt sneda dataserien (1, 1, 1, 2, 2, 3, 4, 6) har medelvärde 2,5 (SD 1,8) och median 2 (IQR 1; 3,5). Medianen påverkas inte av extremvärdenas storlek. Medianen är fortfarande 2 om 6 byts mot 16, men medelvärdet ökar till 3,8 och standardavvikelsen till 5,1.

Enligt Tabell II har hälften av patienterna högst 8,0 mmol/l i FPG, och de 25 procent lägsta värdena är högst 7,1 mmol/l. De olikstora avstånden från kvartilerna till medianvärdet bekräftar den positivt sneda fördelningen. Tabell II visar att författarna har valt geometriskt medelvärde för att beskriva patienternas genomsnittliga triglyceridvärde. Detta mått antyder att triglyceridvärdena är positivt snedfördelade på ett sådant sätt att en logaritmtransformation av alla värden antas ge en approximativ normalfördelning. Medelvärdet kan då beräknas på de log-transformerade mätvärdena (ln x) och det geometriska medelvärdet, som för triglycerider är 2,35 mmol/l (Tabell II), beskriver datamaterialet (Fakta 5). Det betyder att medelvärdet av de logaritmerade värdena är 0,854 (dvs medelvärdet av ln x) eftersom transformationen e0,854 ger 2,35. Standardavvikelsen av ln x saknar tolkningsbarhet vid en tillbakatransformation, därför är det vanligt att på de logaritmerade värdena beräkna ett intervall mellan medelvärdet ± 1 standardavvikelse och därefter transformera intervallgränserna till den ursprungliga enheten. Tabellens information är sålunda att det geometriska medelvärdet för triglycerider är 2,35 mmol/l och att ca 68 procent av observationerna förväntas ha ett värde mellan 0,84 och 6,55 mmol/l, ett antagande som grundar sig på det faktum att i en normalfördelning förväntas 68 procent av populationens värden ligga inom en standardavvikelses avstånd från medelvärdet (Fakta 4) [5].




Val och konsekvens

Varför har författarna valt geometriskt medelvärde för triglycerider och inte medianansatsen, som förvisso är mycket enklare att räkna ut och att tolka?

En av anledningarna kan vara att det finns statistiska fördelar med att kunna använda sig av parametriska metoder i den statistiska analysen, men dessa metoder ställer också stora krav på datamaterialet. De absolut vanligaste parametriska analysmetoderna, såsom Students t-test, utgår från att datamaterialet tillhör en population av normalfördelade värden, vilket förutsätter kvantitativa data. Men observera att symmetriskt fördelade kontinuerliga kvantitativa data inte självklart tillhör en population av normalfördelade värden och att alla positivt snedfördelade kvantitativa kontinuerliga datamaterial inte är log-normalfördelade. Det är viktigt att göra en datakontroll för att motivera valet av statistisk metod. Datakontrollen kan bestå i att studera frekvensfördelningen i ett diagram och att beräkna medelvärde, standardavvikelse, median och kvartiler för att få en uppfattning om symmetri och spridning. Ett normalfördelningsdiagram är också att rekommendera. Resultaten av de statistiska metoder som valts är giltiga endast under förutsättning att datamaterialet har de egenskaper som metoderna baseras på [5, 6, 16].

Med denna artikel ville jag belysa vikten av statistisk kunskap redan vid valet av mätmetod och att datamaterialets egenskaper styr valet av statistisk metod för beskrivning.

I kommande artiklar skall jag ge exempel på hur design och datamaterialets mätnivå styr valet av statistiska analysmetoder. Speciell uppmärksamhet kommer att riktas mot studier som innehåller upprepade mätningar med olika typer av skalor och bedömningsinstrument. Upprepade mätningar kan avse flerfrågeinstrument för bedömning av livskvalitet, förmåga och funktion men också relation mellan variabler, analys av förändring eller utvärdering.

*

Potentiella bindningar eller jävsförhållanden: Inga uppgivna.

Operationalisering

innebär att identifiera observerbara/mätbara indikatorer för variabeln och att operationellt definiera hur dessa skall mätas.

Medelvärde och median

Medelvärdesansats: medelvärde, standardavvikelse (SD).
Medianansats: median, kvartilavstånd (IQR, inter-quartile range), dvs avståndet mellan första och tredje kvartilen. Tillägg: variationsvidd (range) (min, max).

Sannolikhetsfördelning

Parameter är beteckningen för de statistiska mått som beskriver en teoretisk sannolikhetsfördelning.
Normalfördelning (Gauss’ fördelning) är en symmetrisk sannolikhetsfördelning för kvantitativa kontinuerliga data som entydigt definieras av parametrarna medelvärde (m) och standardavvikelse (s).
Det är dessa fixa (»sanna«) parametervärden som skattas utifrån stickprovsstudiers medelvärden (x) och standardavvikelser (SD), vars värden beror på urvalet.
För exakt normalfördelade data är sannolikheten 95 procent att finna ett värde i det symmetriska intervallet m ± 1,96 s.
En alternativ tolkning är att 95 procent av normalfördelningens datamaterial finns innanför 1,96 standardavvikelsers avstånd från medelvärdet. Intervallen m ± 1 s och m ± 3 s innehåller 68 respektive 99,7 procent av normalfördelningens data.
Det är alltså osannolikt att ett normalfördelat värde avviker mer än tre standardavvikelser från medelvärdet [5].

Figur 1. Exempel på länken mellan operationell definition, mätning och datamaterialets egenskaper för variabeln »fysisk belastning«.