Att forska är för många läkare liktydigt med sena kvällar hemma med datorn då det gäller att effektivt få ihop något av anständig kvalitet. Då är inte forskningsdokumentation det första man prioriterar. Vi vill visa på några enkla knep för att åstadkomma en enklare och säkrare tillvaro för sina data och forskningsresultat, vilket i längden leder till bättre forskning och ett effektivare arbetssätt. Strukturerad dokumentation bör ses som en naturlig del i forskningsarbetet – inte något man gör i efterhand när röran redan är ett faktum.

Effektivitetsvinster och säkerhetsaspekter borde vara incitament för alla forskare att noggrant dokumentera hur de kom fram till sina forskningsresultat. Utöver detta finns lagligt krav på god hantering av känsliga personuppgifter inom forskning samt särskilda regler kring specifika typer av studiedesigner, till exempel randomiserade kliniska försök. Detta berörs emellertid inte vidare i denna artikel. God datahantering handlar om att kunna återskapa publicerade resultat – från tabellen i artikeln till uppgifter om enskilda patienter i ursprungsfilerna som användes i analysen. När referentkommentarerna med ändringsförslag anländer är det extra viktigt att revisionsarbetet går snabbt och problemfritt. Detta möjliggörs genom ordnad dokumentation. En strukturerad forskningsdokumentation och kompetent datahantering går således hand i hand. God forskningsdokumentation minimerar startsträckan varje gång man tar itu med projektet på nytt.

En framgångsrik dokumentation förutsätter en struktur och en genomtänkt plan. Men när får man lära sig hur man lägger upp en god mappstruktur i sin dator eller hur man namnger sina filer? Vi ger exempel på hur man enkelt kan lägga upp sina projekt och hantera sina filer, samt beskriver användbara dokument såsom analysplanen, loggboken och kodböcker. I det långa loppet handlar lämplig datahantering och forskningsdokumentation om god projektledning. En diskussion kring dataflödet i projektet bör finnas med i alla steg i forskningsprocessen – från hypotes till arkivering (Figur 1).

Var proaktiv – spar tid med en bra mappstruktur
Ett vanligt misstag som forskare ofta begår vid starten av ett projekt är att överskatta den egna förmågan att hantera stora mängder filer av olika slag. Det kan röra sig om rådatamaterial, bearbetade/rensade data, textdokument, programfiler, bilder, tabeller m m. Det kan visa sig svårt att hitta aktuella filversioner, något som stjäl tid varje gång arbetet återupptas.

En effektiv mappstruktur kan förebygga många problem, särskilt i stora och komplicerade projekt. Vi rekommenderar att du vid starten av varje nytt projekt skapar en logisk och lättbegriplig struktur. En lämplig regel är att skapa en huvudmapp för varje publikation. Om en och samma datamängd ska användas till flera publikationer, skapa en generell projektmapp för det huvudsakliga projektet och därefter undermappar för varje publikation. Bra mappstruktur åskådliggör ditt forskningsprojekt genom att färre delar ger bättre överblick (Figur 2). Huvudmappen för varje publikation delar du in i ett antal undermappar för olika typer av filer.

Data. Hit hör rådatamaterial, rensade datafiler samt viktig information relaterad till datainsamlingen, till exempel en kopia av databeställningen eller enkäter/patientformulär som användes vid datainsamlingen, samt formulär för abstraktion av journaldata och information om vilka labbanalyser som gjordes.

Dokument. I den här mappen läggs manusversioner, godkänd etikansökan, forskningsplan, forskningsmedelsansökningar, korrespondens mellan forskaren och tidskriften, studieprotokoll för kliniska prövningar, information om biologiska mätmetoder som använts samt dokumentationsfiler som analysplan och kodböcker.

Program. I programmappen läggs de statistikprogramfiler som genererade forskningsresultat i den statistiska analysen.

Resultat. Hit hör resultatfiler (output) från programfilerna, tabeller, figurer och grafer.

Man bör även skapa en så kallad README-fil, en textfil som ska ge läsaren en snabb överblick av projektet och som därför bör innehålla övergripande information om projektet, tidsperiod, namn på inblandade forskare samt en beskrivning av mappstrukturen. Den är tänkt att fungera ungefär som ett register i en pärm och bör sparas överst i projektmappen. Denna typ av dokument namnges ofta README för att snabbt dra till sig läsarens uppmärksamhet.

God dokumentation börjar med analysplanen
Analysplanen bör du påbörja innan projektet sätter igång genom att skriva en kort sammanfattning av din frågeställning/hypotes, vilka variabler som är av intresse och hur dessa mäts. Analysplanen är det viktigaste dokumentet. Den knyter ihop det vetenskapliga tankegångarna med filer och resultat och ska innehålla all viktig projektinformation, exempelvis beslut som fattats, analyser som gjorts (även de som slutligen inte omnämns i artikeln), information om hur dina data samlats in, vilka variabler som använts samt kontaktuppgifter till alla medförfattare. Till skillnad från en forskningsplan, som används vid forskningsmedelsansökningar eller etikprövning, beskriver analysplanen det faktiska arbetet som utförs under projektets gång och inte bara vad du planerar göra. Fakta 1 visar vilka rubriker som bör finnas med i analysplanen. Analysplanen ger dig överblick och bör uppdateras kontinuerligt för att fylla sin funktion.

Om man exempelvis vill studera om patienter med multipelt myelom har ökad risk att drabbas av blodproppar [1] är det viktigt att notera inklusions- och exklusionskriterier för att ingå i myelom-kohorten, vilka klassifikationskoder för dia­gnosen blodpropp som använts samt varifrån dessa data hämtas. I detta exempel är myelom exponering och blodpropp utfall. Här bör även beskrivas vilken mätmetod som används för att analysera sambandet mellan exponering och utfall. Tänk noga kring datainsamling; ibland händer att intressanta frågeställningar bara blir halvt besvarade för att man inte tänkt igenom exakt hur data ska analyseras. Tänk efter före!

Att bearbeta datamaterial med statistiska program
För många kan det kännas som ett oöverstigligt hinder att lära sig ett statistikprogram, men det är väl investerad tid. I de flesta statistikprogram finns möjligheten att analysera data genom att klicka sig fram i menyer och därför krävs inte förkunskaper i programmering. Det är viktigt att du skriver ner hur du klickar dig fram i analysen, vilka variabler du lägger in i tabeller och modeller, för att senare kunna återskapa din analys. Enklast är att föra en loggbok, där du skriver ner vilken ordning du klickade dig fram och vad resultatet blev.

Spara resultatet i en fil och protokollför i loggboken. Det bästa är dock att analysera data genom att skriva programkod för att göra uträkningarna (inte bara klicka sig fram i menyerna). Programkoden sparas i en fil, som du enkelt kan köra för att återskapa dina resultat vid uppdateringar och vid referentgranskning. Det är också enklare att leta efter fel i programkoden, jämfört med menydrivna analyser. Programkodfilen i sig är en dokumentation över vilka analyser du gjort, och du behöver därför inte skriva en särskild loggbok för dina analyser. Kommentera programkodfilen väl, till exempel genom att i ord skriva ut vilka beräkningar de olika programfunktionerna utför. Det gör det lätt att läsa och förstå även för personer som inte i detalj känner till hur just din statistiska programvara fungerar.

Ofta har menydrivna programvaror en modul som automatiskt skapar programkod. Denna kod kan man spara för att senare kunna köra om sin analys. På så vis kan man kombinera ett menydrivet arbetssätt med skriven programkod.

En tumregel är att varje programkodfil endast ska ha ett syfte, till exempel ett program för att skapa analysdatasetet och ett program för deskriptiv statistik. Namnge filen så att den beskriver vad programmet gör, exempelvis »skapa_analysdata« eller »deskriptiv_statistik«.

En loggfil kan ofta skapas av statistikprogramvaror och ger en fullständig sammanställning av körningen av en viss programfil. Spara gärna loggen/resultatet efter körningen (ge den samma namn som programfilen), så att du inte behöver köra om programmet varje gång du vill kontrollera ett resultat.  Undvik att använda å, ä, ö och mellanslag i fil- eller variabelnamn. Alla programvaruföretag ger nätkurser och har nybörjarböcker till försäljning – allt för att du som användare snabbt ska bli bekant med programmet. Använd även inbyggda introduktioner (tutorials), supportservice eller sektionen »vanliga frågor« (FAQ, frequently asked questions) på företagets hemsida. Support ingår alltid i licensen, tveka inte att mejla om du har frågor. Dessutom finns ofta mycket material och tips från andra användare i forum på nätet.

Att ha koll på dataflödet med kod- och loggböcker
För att hålla reda på programfilerna och datafilerna bör man använda sig av loggbok och kodböcker, som beskriver hur dessa filer är relaterade och vad de innehåller [2]. I loggboken (som inte ska förväxlas med statistikprogrammens loggfiler) beskriver du alla programfiler du skapat, vilka datafiler de använder, vilka datafiler (uttryckt i ord) de skapar samt vad programmet gör. På detta sätt får man överblick över hur program- och datafilerna hänger ihop och därmed över dataflödet. En helhetssyn över dataflödet minskar dessutom risken att man av misstag skriver över datafiler och därmed riskerar att tidigare analyser blir oreproducerbara. Viktigt är att aldrig ändra informationen i originaldatafilerna då alla resultat bör kunna härledas i dessa. Fakta 2 ger ett exempel på en loggbok, som kan konstrueras både grafiskt och, som här, i tabellform.

Kodböcker innehåller beskrivningar för variablerna i datafilerna, varje datafil ska ha en egen kodbok. Det ska tydligt framgå hur variablerna är kodade (Fakta 3). Använd alltid beskrivande namn då du namnger nya variabler, så att man enkelt förstår vilken information den innehåller.

Levande dokumentation ger tidsvinster
Som tidigare nämnts bör analysplanen uppdateras kontinuerligt under hela projektet. Ha gärna en sektion i analysplanen där du för »dagbok« över vad du gjort. Du märker snart hur mycket kortare startsträckan blir när du återupptar arbetet med projektet. Utöka regelbundet analysplanens olika sektioner, t ex den statistiska analysen med detaljer över vilka metoder du använt, varför just de metoderna använts och om några förändringar sker. Skriv även in vilka inklusions- och exklusionskriterier du har för din studiepopulation och hur många som exkluderades i varje datarensningssteg.

Under arbetets gång upptäcker man ofta att någonting måste göras om. Kanske ska en variabel kategoriseras annorlunda eller några ytterligare personer i analysdatafilen exkluderas. Gå då tillbaka till den programfil där den kategoriseringen eller exklusionen ursprungligen utfördes istället för att försöka lösa problemet där det dök upp. Analysen riskerar annars att bli ett lapptäcke med osystematiska ändringar, istället för den välorganiserade struktur av separata programfiler med distinkta uppgifter som du eftersträvade. Om du uppdaterar ett program, kom ihåg att även köra om alla programkodfiler som bygger på programmet du uppdaterat. Använd loggboken, där du lätt kan se hur programmen och datafilerna hör ihop. Kontrollera att du alltid gör allt i rätt ordning så att du inte av misstag analyserar en gammal version av datafilen.

Ett system för versionshantering ser till att gamla program och resultat inte skrivs över. Det finns olika program, men ofta räcker ett versionhanteringssystem som bygger på att till exempel alltid inkludera datum när man namnger sina program. Filen med senast datum är alltid den aktuella.

Dessa råd för uppdateringar kommer underlätta skrivandet av själva artikeln avsevärt. Metod- och resultatavsnitten finns redan i punktform i analysplanen! Innan du skickar in din artikel kan det vara bra att du skapar en kopia av ditt manuskript där du, för din egen skull, infogat hänvisningar/kommenterar till de programkodfiler som beräknar de olika resultaten i manuskriptet. På så sätt kommer referentprocessen bli effektivare och enklare att genomföra. Om du har ordning på alla dina filer, har skrivit bra dokumentation och gjort ett annoterat manuskript är det enkelt att veta vilken analys som skapat varje siffra i dina tabeller och dina figurer.

Säkerhet vid hantering av persondata
Personuppgiftslagen (Fakta 4) anger att alla som hanterar personuppgifter måste vidta lämpliga tekniska och organisatoriska åtgärder för att skydda personuppgifterna från hot eller störningar [3]. Med störningar och hot menas hantering av data som kan leda till att personuppgifterna förstörs/ändras så att de på ett eller annat sätt blir felaktiga eller att de oavsiktligt sprids. Detta kan exempelvis ske genom att obehöriga personer får tillgång till din dator, sabotage/dataintrång, olyckshändelser eller kanske rent av stöld av din dator.

Ofta har myndigheter/arbetsplatser en skriftlig säkerhetspolicy som beskriver organisationens säkerhetsstrategi och ansvarsfördelning. Likaså har Datainspektionen sammanställt allmänna råd kring konkreta säkerhetsåtgärder vid hantering av personuppgifter [4]. Exempel på tekniska åtgärder som man ganska enkelt kan se över själv och främst syftar till att motverka olika typer av dataintrång finns i Fakta 5 .

Arbetar du hemifrån bör arbetsgivaren tillhandahålla säkerhetsrutiner, exempelvis kryptering av hårddisken samt ett sy­stem för säkerhetskopior (back-up). Man kan även kontakta sin datorleverantör för råd kring rimliga tekniska lösningar som kan minska skadan vid en eventuell förlust av datorn.

Att tänka på vid samarbeten
Innan man påbörjar ett samarbete med andra forskare bör man tillsammans göra en plan för hur filer ska delas och hur arbetet ska dokumenteras. Ska det finnas en huvudkopia av datamaterialet på ett ställe, hur ska det rensas och vem är ansvarig för dokumentationen? Det ska finnas etiskt godkännande för all användning av datamaterialet, så om datamaterialet ska bearbetas på flera ställen ska det täckas av godkännandet. Ett gott råd är att inte lägga flera orensade kopior av datamaterialet på olika platser, eftersom det lätt kan leda till att olika rensningar görs på olika ställen och att resultaten blir olika. Det är klokare att ha en huvudfil av materialet på ett ställe som sedan delas ut till övriga samarbetspartner. Överföringen av filen måste ske på ett tekniskt säkert sätt, exempelvis med kryptering och en lösenordsskyddad överföring. E-post är ett klart olämpligt sätt att överföra okrypterade filer och ska aldrig användas för filöverföring av känsliga personuppgifter [5]. Olika lagar gäller för överföring av personuppgifter inom Sverige, EU och utanför EU. Mer information finns hos Datainspektionen <http://www.datainspektionen.se>. Generellt kan man säga att det som är lagligt i Sverige även är det inom EU, medan det utanför EU nästan alltid krävs speciella avtal, och till majoriteten av världens länder är det olagligt att överföra patientdata.

Arkivering – slutet på projektet
Efter publikation är det dags att arkivera projektet. Till arkivet läggs alla handlingar som är nödvändiga för att reproducera de publicerade resultaten, inklusive etiktillstånd, rådata­filer, forskningsdokumentationen samt den publicerade artikeln. Fullständiga regler kring hur länge materialet bör bevaras och vilka filer som kan gallras innan arkiveringen finns beskrivna i arkivlagen [6, 7] och alla myndigheter har en egen arkivbildningsplan. Det finns flera skäl till att bevara forskningshandlingarna. Dina resultat ska kunna kontrolleras av andra och ditt forskningsmaterial kan komma i fråga för återanvändning långt efter att ditt projekt har avslutats. Ditt material kan även komma att efterfrågas vid en eventuell utredning om en anklagelse för vetenskaplig oredlighet [8]. Att tänka på i samband med arkiveringen är således att de format som dina olika typer av filer är sparade som måste vara läsbara många år framöver. Det kan därför vara nödvändigt att konvertera vissa filer som finns sparade i icke-stabila format (till exempel datafiler som endast kan öppnas med en specifik version av en programvara) till mer beständiga format (exempelvis kommaseparerade textfiler). Det är också viktigt att uppdatera README.txt-filen och kontrollera att den är lätt att hitta i projektmappen.

Ord på vägen
Det kan kännas övermäktigt att ställas inför dessa råd, det vet vi efter flera års undervisning kring datahantering och dokumentation. Men det handlar om att lägga om sitt arbetssätt, och sådant måste få ta tid. Det viktigaste är inte att dokumentationen är perfekt, utan att du börjar någonstans. Fokusera inte på gamla synder. Lägg kraften på pågående och kommande studier. Gör en analysplan och skriv en kodbok för din datafil. När du sedan sätter dig ner för att skriva artikeln ett år senare kommer du att inse att det var mödan värt. Din forskning har blivit tydligare, och ditt arbetssätt mer effektivt och tidsbesparande.
*
Potentiella bindningar eller jävsförhållanden: Inga uppgivna.

Om Faktarutan är svårläst, se artikeln i bifogad pdf!

Om Faktarutan är svårläst, se artikeln i bifogad pdf!