Kvalitetsgranskning av adressuppgifter

Eremitkräfta i hus utan uppenbar adress

Man skulle kunna tro att detta handlar om ett försök till årets torraste rubrik på bloggen, men det hela bottnar i något mycket mer intressant än så. Bakgrunden är ett växande behov av att ha högre kvalitet på våra adressuppgifter, med tillhörande koordinater, bl.a. för användning i projekt och för publicering som öppna data. Det gäller inledningsvis var Västra Götalandsregionens verksamheter finns, men det kan förstås utökas framöver.

Data levereras i JSON och med hjälp av FME läser jag ut de delar som är relevanta i dagsläget, exempelvis id, verksamhetens namn, verksamhetstyp (vårdcentral, tandvård etc.), gatunamn, gatunummer, postnummer och postort. Jag behöver förstås även koordinater för varje verksamhet och därför matchar jag adressinformationen i JSON-filen med Lantmäteriets register över belägenhetsadresser. Ganska snabbt uppenbarar sig ett par problem i vår datamängd:

  • Flera typer av information lagras i samma fält. Ibland lagras endast gatunamn och gatunummer i fältet och ibland förekommer exempelvis även strängar som ”våning 2” eller ”hus 4” i samma fält.
  • Förkortningar av gatunamn
  • Felstavningar
  • Inkompletta adresser
  • Otillräckligt definierade adresser. Gatunummer 18 är angivet, men är det 18A, 18B eller 18C som avses?

Är det någon mer som känner igen sig i dessa exempel? I ett fåtal fall har jag också hittat adresser som faktiskt existerar, men som av någon anledning saknas i Lantmäteriets sammanställning. Hittills har det rört sig om att adresserna har fallit bort i kommunernas leverans av adresser till Lantmäteriet och när jag har lyft detta till kommunerna har det snabbt rättats till.

Matchningen görs genom att slå ihop gatunamn, gatunummer och postort för både vår egen datamängd och Lantmäteriets register. För att undvika, i alla fall för stunden, tappade matchningar pga olika uppsättningar av versaler och gemener i gatunamnen görs allt om till versaler och alla blanksteg tas bort. En adress blir då exempelvis ”RIMMAREGATAN2HISINGSBACKA”. Därmed bli det enkelt att hitta de adresser som avviker från Lantmäteriets register. Dessa avvikelser återkopplas till verksamheterna, så att de kan rätta uppgifterna i vårt register.

Modell för kvalitetsgranskning av adresser

Min förhoppning är att antalet fel/avvikelser i vår egen datamängd på sikt ska närma sig noll. De här genomgångarna är ett stort steg i riktning att tillhandahålla korrekta, öppna data. Jag hoppas också att alla som samlar in adresser ser till att redan från start dela upp pusselbitarna i separata fält, dvs egna fält för ex. gatunamn, gatunummer, våningsplan etc. Då det blir det betydligt enklare att bearbeta informationen i ett senare skede.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *