AI-projektets informationsarkitektur

För det här projektets ändamål är det en högst begränsad mängd data som är tillgänglig. Annat hade det varit om vi jobbat med unsupervised learning – att hitta dolda strukturer i våra data, men nu försöker vi snarare följa ledtrådar och bevisa en hypotes. Hur bra står sig en maskin mot en människa när det gäller att ställa en diagnos?

Använt vokabulär / kodverk

Inom medicinen pratar man ofta om kodverk. För dig som har en bakgrund inom informatik eller IT så är det samma sak som ett vokabulär. Det finns ett gäng kodverk som används inom vården. De jag hör talas om mest är KVÅ, ICD (International Statistical Classification of Diseases and Related Health Problems) och SNOMED (Systematized Nomenclature of Medicine).

I detta fall är det dock ICPC-2 som används. Poängen med ICPC-2 är enligt Världshälsoorganisationen, WHO:

”ICPC-2 classifies patient data and clinical activity in the domains of General/Family Practice and primary care, taking into account the frequency distribution of problems seen in these domains. It allows classification of the patient’s reason for encounter (RFE), the problems/diagnosis managed, interventions, and the ordering of these data in an episode of care structure.”

Ett kodverk är ett standardiserat sätt att beskriva något. Som namnet på ICPC antyder är det fokuserat på de behov som finns i primärvården snarare än den högspecialiserade sjukhusvården.

Då det handlar om primärvård är det användbart för en första grovsortering av vad ärendet gäller och jag misstänker att man även i sjukhusmiljö ibland har nytta av detta.

Projektmål är självdiagnos / triage på distans

Projektet har som mål att studera möjligheten till ”beslutsstöd”, vilket på vanlig svenska skulle vara att du själv får hjälp att ställa diagnos, lika gärna som att en vårdperson får denna hjälp.

Går det att maskinellt automatisera detta? Om du åker till akuten kommer vårdpersonal att göra en första bedömning på dig, en så kallad triage. Om vi i vården kan erbjuda en triage utan att det ska krävas en resa till vårdens lokaler skulle vården bli mer tillgänglig. Om det inte heller kräver att människor alltid gör bedömningen manuellt behöver man inte heller vänta på sin tur – ännu mer tillgängligt!

Hur pricksäkert kan det bli?

Det är förstås viktigt att det blir tillräckligt bra. Vad det innebär är en diskussion för ett annat blogginlägg, men i korthet är det bra om maskinen för det mesta är bättre än vältränade människor.

I och med att vi i detta projekt redan har patientberättelser och satta diagnoser har vi tillgång till både frågan och svaret. Med detta som utgångspunkt kan vi jämföra människa mot maskin. Vad människan anser vet vi och med det som bas kan vi instruera maskinen hur den ska lära sig.

Beslutsträd

Ett beslutsträd är ett sätt att ta beslut. I sin enklaste form; säg att du frågar om en patient haft oskyddat samlag med en HIV-smittad, om svaret är ja har du god anledning att göra vissa antaganden. Om svaret är nej bör frågan om orsak till besvären ta en annan väg i trädet.

Beslut kan ritas upp i en trädstruktur. Får vi svar på en fråga kommer en eller flera alternativ vara mer sannolika än andra. Vad som är mer sannolikt? Det är avhängigt på intelligens och/eller statistik. Åtminstone det senare är något som en artificiell intelligens kan bli bra på, möjligen också det första, över tid.

Datakällan handlar om bröstkorgen (thorax)

Datakällan för just detta projekt är extremt sparsmakad och specialiserad. Vi har drygt hundra patientberättelser (anamnes), men inget mer. Vi vet inte deras kön, ålder eller något annat än den ostrukturerade text de berättat för sin läkare.

För var och en av patientberättelserna har vi tre läkare som markerat vad de anser är viktiga ord i berättelsen och så har de var och en ställt diagnos enligt ICPC som kodverk. De har alltså inte träffat patienten – precis som vår AI.

Viktiga ord är högt och lågt, bland annat: KOL, hosta och trötthet, pip i bröstet och rökare.

Som grädde på moset har de tre läkarna suttit ned och gemensamt kommit fram till vad de tycker verkar vara korrekt diagnos. På så sätt kan vi se om maskinen är jämförbar med den sämre läkaren, eller rent utav föreslår det som är konsensus.

En utmaning är att det finns gott om felstavningar, knepiga förkortningar och fikonspråk. Mycket av det går säkert att ta hand om ifall vårt projekt fortskrider och en större datamängd blir tillgänglig – vissa mönster bör börja uppträda. Som vad nu en “tacksam röntgen” innebär.

Relationer mellan kodverk

Några kodverk hänvisar till varandra. ICPC har exempelvis hänvisningar till ICD. Om vi kommer fram till en ICPC-kod kan vi då ställa mer eller mindre intelligenta följdfrågor och på så sätt avgränsa de automatiska slutsatserna. Här kan vi dra nytta av ICPC:s egna inclusion- och exclusionfrågor, men också genom de mer detaljerade diagnoserna som finns länkat till i ICD-kodverket.

Vad kan den tekniska lösningen hjälpa till med?

Det vi studerar i projektet med en bas i artificiell intelligens är hur bra dessa slutsatser kan göras av en maskin. Poängen är att:

göra vården mer tillgänglig:
- hemma i soffan
- ute i joggingspåret
- i radioskugga i en nödsituation
vägleda medborgare till rätt vårdnivå
tipsa om information att läsa för de som vill vara väl förberedda inför sitt besök i vården

Vi håller just nu på med att bygga en demonstrator/proof-of-concept för att visa vad man med små medel kan bygga själv.