I ett pek i Nature presenterade Googles forskningsavdelning en maskininlärningsalgoritm med miljardtals parametrar som är en av flera tentativa AI-doktorer [1]. Deras initiala algoritm – Flan-PaLM– var tränad på databaser med flervalsfrågor i USMLE-stil (United States medical licensing examination), men prestandan visade sig vara bristfällig. Därför utökades databasen med svar på läkemedelsfrågor och allmänna hälsofrågor som tidigare har ställts på nätet. Modellen som tränades på detta dataset, Med-PaLM, presterade avsevärt bättre.
Svaren på flervalsfrågorna rättades med hjälp av facit, och svaren på de allmänna hälsofrågorna bedömdes av läkare avseende bland annat korrekthet. Slutligen utvärderades även hur användbara dessa svar ansågs vara av människor utan medicinsk bakgrund (alla bosatta i Indien).
Algoritmen hade enligt facit svarat rätt på 68 procent av flervalsfrågorna, vilket är förvånansvärt lågt med tanke på att den svarar på frågor som sannolikt är skapta för en salstentamen. Detta motsvarar ett knappt godkänt resultat på läkarprogrammet. Modellen presterade även sämre än läkare i kliniska sammanhang: till exempel var 19 procent av Med-PaLM:s svar på de allmänna hälsofrågorna inkorrekta, jämfört med läkares 1 procent.
Överlag är prestandan inte särskilt imponerande och generaliserbarheten svårbedömd, då urvalet av bedömare på klinikersidan och motsvarande på patientsidan inte kan anses representativt och inte beskrivs vidare i artikeln. Det som är intressant med detta pek är varken modellens parametrar eller dess prestanda, utan att den uppmanar till reflexion: vilken kunskap är viktig och användbar inom medicin? Liknande artiklar ger insikter om hur läkares inlärning går till. För denna algoritm gick det inte att överföra kunskapen från standardiserade flervalsfrågor till kliniska frågeställningar. Kan detta stämma även för läkarstudenter?