3. Forberede data til bruk

Analysere skjevhet i data

Skjevhet, eller bias, er en systematisk feil som kan oppstå når dataene ikke er balanserte. Det skjer når enkelte grupper eller typer informasjon er overrepresentert, mens andre er underrepresentert.

Dette kan føre til at KI-systemet gir skjeve eller urettferdige resultater.

Å analysere skjevhet i data handler om å sikre at de er pålitelige, representative og egnet til formålet.

Det er viktig å være klar over at skjevhet ikke alltid er feil som må fjernes. Ofte gjenspeiler dataene virkelige forhold. Det viktigste er at du forstår skjevheten og hvilken betydning den har for bruken av KI-systemet. Selv om dataene kan være “korrekte” kan de inneholde skjevheter fordi de gjenspeiler historiske eller samfunnsmessige forhold. Derfor er det avgjørende å forstå konteksten dataene er hentet fra.

Slik kan du analysere skjevhet

Målet er å sikre at dataene gir et mest mulig balansert og riktig grunnlag slik at KI-systemet ikke gir skjeve eller urettferdige resultater.

Identifiser kilder til skjevhet
Vurder skjevhet i dataene
Vurder behov for tiltak
Følg opp over tid

Mer om hvordan du kan analysere skjevhet

Jobb kontinuerlig med skjevhet i data

Du må alltid vurdere og følge opp skjevhet i dataene dine, fra innsamling og behandling til utvikling og bruk av KI-systemet.

Du bør

ha tydelige roller og ansvar for å følge opp datakvalitet og skjevhet
dokumentere vurderinger og tiltak
overvåke dataene over tid, siden skjevhet kan endre seg

Eksempel

Et smart vanningssystem er trent på data fra et område der det er mest sol og lite skygge. Systemet lærer derfor at jorden ofte tørker raskt og at det er behov for hyppig vanning.

Når systemet tas i bruk begynner det å vanne oftere i disse områdene. Samtidig samler det inn nye data, men disse dataene er påvirket av at systemet allerede vanner mye.

Resultatet blir at

systemet fortsetter å se mye tørre forhold, fordi det hovedsakelig overvåker solrike områder
det får lite data fra skyggefulle områder der behovet er annerledes
det lærer at høy vannmengde er “riktig” i stadig flere situasjoner

Over tid forsterkes dette mønsteret. Systemet blir dårligere til å håndtere variasjoner i forhold og kan for eksempel vanne for mye i områder som egentlig ikke trenger det.

Neste steg

Gjøre data tilgjengelig for KI-systemet