Case: Virdi estimerer salgspris på boliger ved å bruke offentlige data

Virdi lager boligtjenesten virdi.no som gir forbrukere innsikt og data om boligmarkedet, som automatiske verdiestimater, solgtpriser, boliger som kommer for salg og statistikk.

Estimatene og dataene i denne boligtjenesten er hovedsakelig basert på bolig data fra Ambita, som også er Virdi's eierselskap. Det eneste Virdi har å peke på er at de som selskap, og andre, må betale for datatilgangen.

Datasett som API

Ambita, har avtaler på plass og API-er for å hente data fra matrikkel og grunnboken hos Kartverket. Virdi har videre en dataavtale med Ambita på utvalgt data som bi får tilsendt som csv-filer. Virdi oppdaterer disse dataene ukentlig.

"Vi kunne også valgt å benytte API-er for å hente denne informasjonen, men benytter ukentlig fildump i stedet, da vi har satt opp vår egen pipeline for dataprosessering hvor dette formatet passer godt" sier Aslak Bergersen som er leder for maskinlæring og data hos Virdi.

Manuell innhenting av datasett

Virdi har i tillegg samlet inn andre data fra forskjellige kilder hvor innhentingsprosessen er mer manuell. For eksempel, når de la til støydata fra Miljødirektoratet, kom dataen i form av kartdata som vi hadde funnet frem til på nettet.

Denne dataen var ikke tilgjengelig i et nedlastbart format som kunne benyttes. Virdi hadde kontakt med en ansatt i direktoratet via mail etter å ha brukt et kontaktskjema, og det tok et par uker fra de tok kontakt, til datasettet var lagt ut på datakatalogen deres.

Det neste steget for Virdi var å analysere dataene for å skjønne hvordan de var satt opp, konvertere dem til et format vi kunne bruke, og så mappe dataene inn til én og én bolig i deres database. Siden støydataene kun blir oppdatert hvert 5. år er det ikke noe stort problem at dataene kun ligger tilgjengelig som nedlastbart datasett på en nettside fremfor et API.

Datasett med innlogging hindrer automatisering

Et annet eksempel er energimerkingsdata, hvor Virdi hadde kontakt med en ansatt i Enova via mail for å få tilgang. Det gikk relativt smertefritt å få tilgang til dataene etter at kontakt var opprettet, og de fikk tilgang på under en uke.

Utfordringen med datatilgangen her er at den legges inn på en personlig side på energimerking.no, hvor man må logge inn med BankID, eller tilsvarende, noe som gjør automatisering av datainnhenting umulig. De må derfor logge inn manuelt en gang i måneden for å laste ned data, noe som ikke er ideelt i den grad de sikter på å automatisere så mye av prosessene rundt datainnhenting som mulig.

Antall brukere og potensialet

VIRDI har per dags dato omtrent 90 000 månedlige unike brukere på deres forbrukertjeneste virdi.no. Målet deres er å gi samtlige nordmenn med interesse for boligmarkedet tilgang til gode data og innsikt. Med tanke på interessen for boligmarkedet og den høye andelen som eier egen bolig i Norge i dag er kundemassen veldig mye større og de håper på å nå rundt 700 000 unike brukere i måneden på sikt.

Hvor lang tid tok det å få dataene

Hoveddataene i Norge om boligmarkedet er matrikkelen og grunnboken, som vi får via Ambita og har enkel og kontinuerlig tilgang på. Når det gjelder datainnsamling fra andre kilder så har vi som regel tilgang til dataene vi leter etter i løpet av et par uker, men å finne frem til rett person kan enkelte ganger være utfordrende, sier Aslak Bergersen.

Det som var vanskelig

Det finnes ingen komplett oversikt over samtlige data som er tilgjengelig, så mye av jobben handler om å finne frem til hva som finnes og hvor. Når dataene ikke er åpent tilgjengelig online, må man også bruke tid på å komme i kontakt med riktig person for å få tilgang til dataene.

Det Virdi klarte fint

Omforming av dataene og å benytte de til ønsket formål etter at vi har fått tak i de klarer vi fint, selv om standardformater på tvers av alle data hadde vært en fordel. En del av dataene er tilgjengelig via APIer, noe som gjør tilgang og bruk veldig enkelt.

Ønsker å inkludere flere datasett

Portrett av Aslak Bergersen
Aslak Bergersen i Virdi
Foto: Aslak Bergersen v/VIRDI

Vi holder på og ønsker etter hvert å legge til alle tilgjengelige data knyttet til boligmarkedet i tjenesten, slik som data på demografi, vær, helse, høydedata og utdanning fra kilder som SSB, Utdanningsdirektoratet, FHI og Frost. Vi jobber med å legge til opplysninger fra blant annet Enhetsregisteret, Aksjonærregisteret og Entur. Vi har også samlet mye unik informasjon om boligmarkedet fra våre brukere, som er med på å foredle datasettet vårt.

For å summere opp hvordan VIRDI som selskap har opplevd tilgang til offentlig data, er nok vår opplevelse at veldig mye data ligger tilgjengelig på nettet allerede. Samtidig er det også en god del relevant data som kan bli tilgjengeliggjort i et eller annet format. Sistnevnte krever bare litt mer graving for å finne fram til.

Kontakt

Aslak Bergersen

Leder maskinlæring og data
Virdi
Telefon
+47 993 22 848