Hopp til hovedinnhold
Gjør dataene KI-klare

3. Forberede data til bruk

Måle og forbedre datakvalitet

Å vurdere kvaliteten på dataene handler om å finne ut om de er riktige, komplette, konsistente og oppdaterte, og at de passer til det du skal bruke dem til.

Hvis dataene ikke passer til formålet vil ikke systemet du lager gi gode resultater.

Datakvalitet er en sentral del av god datastyring og må vurderes for hver datamengde du bruker.

Slik måler du datakvalitet

  1. Velg hva du skal måle. Det kan være om dataene er relevante, oppdaterte eller representative. Hva du bør måle avhenger av hva KI-systemet skal brukes til.

  2. Gjennomfør målingene. Hvis du kan, bør du måle med automatiske tester som ligger tett på dataene.

  3. Oppsummer resultatene i en rapport. Det er en fordel å automatisere rapporteringen slik at du kan følge med på kvaliteten over tid.

Hvis dataene ikke er gode nok må du lage en plan for hvordan de kan forbedres.

Du bør analysere flere sider ved dataene, for eksempel:

  • Passer dataene til formålet (relevans)?

  • Er dataene oppdaterte (aktualitet)?

  • Dekker dataene det de skal (representativitet)?

  • Er dataene sammenhengende, konsekvente og komplette?

For å gjøre gode vurderinger må du forstå hvem systemet er laget for og hvilket behov det skal dekke. Det er derfor en fordel å jobbe i et tverrfaglig team der både teknisk kompetanse og domenekunnskap er representert.

Eksempel

Det smarte vanningssystemet bruker sensordata og værdata for å bestemme når det skal vannes. For at systemet skal fungere godt må dataene være relevante, oppdaterte, representative og komplette.

Hvis en sensor gir feil verdier eller slutter å sende data kan systemet vanne for mye eller for lite. Datakvaliteten kan derfor overvåkes automatisk ved å kontrollere at verdier er gyldige, at data ikke mangler, at sensorer gir konsekvente målinger og at dataene er oppdaterte. Systemet bør varsle ved avvik slik at feil kan rettes raskt.

Selv små feil i dataene kan gi store utslag i resultatene. Derfor bør datakvalitet måles og følges opp kontinuerlig.

Neste steg

Transformere data

Hva leter du etter?