Hopp til hovedinnhold
Teknisk dokumentasjon

Dokumentasjon av datasett for ansvarlig KI

For å sikre tilstrekkelig transparens, sporbarhet og etterprøvbarhet bør du sytematisk dokumentere datasett som brukes til trening, testing eller evaluering av KI-systemer.

En anerkjent metode for å dokumentere datasettdokumentasjon er Datasheets for datasets. Det er systematisk dokumentasjon som tilsvarer tekniske spesifikasjoner for produkter. Metoden gir en strukturert mal for å dokumentere datasettets opprinnelse, sammensetning, innsamling, vedlikehold, anbefalt bruk og begrensninger. Formålet er å gjøre det mulig å vurdere om dataene er egnet for den tiltenkte bruken og å redusere risikoen for feil bruk av data med ukjent eller utilstrekkelig dokumentert bakgrunn.

Hvorfor er dokumentasjon av datasett viktig?

Forskning viser at manglende dokumentasjon av datasett er en av hovedårsakene til feil og skjevheter i KI-systemer. For å motvirke dette bør du dokumentere datasett systematisk gjennom hele livssyklusen, inkludert hvordan dataene er samlet inn, hvilke forutsetninger som ligger til grunn og hva dataene egner seg til. Dette gjør det mulig å vurdere kvalitet, risiko og egnethet, og er en viktig forutsetning for ansvarlig bruk av KI.

Dette er særlig viktig ved bruk av eksterne eller åpne datasett, hvor opprinnelse og datakvalitet ikke alltid er tilstrekkelig dokumentert.

Prinsipper for god datasettdokumentasjon

Strukturert dokumentasjon av datasett kan bidra til å operasjonalisere sentrale prinsipper for god datastyring i DAMA DMBok, særlig knyttet til:

For alle leverandører av KI-modeller for allmenne formål (KIAF) og KI-systemer med høy risiko er dokumentasjon av datasett en viktig del av arbeidet med å oppfylle kravene til datastyring, datakvalitet og teknisk dokumentasjon i KI-forordningen.

Dette bør du dokumentere

Dokumentasjonen bør

  • være oppdatert gjennom hele livssyklusen

  • beskrive hvilke datastyringstiltak som er gjennomført

  • forklare hvordan tiltakene er implementert i praksis

  • tydeliggjøre roller og ansvar

  • sikre sporbarhet (data lineage) og etterprøvbarhet

For data og datasett bør du som minimum dokumentere

  • hvordan sentrale begreper er definert og brukt i datasettene

  • hva slags data som er brukt (beskrivelse av datasettene)

  • hvor dataene kommer fra og hvordan de er samlet inn

  • hvordan dataene er valgt ut og eventuelt filtrert

  • hvordan dataene er merket (hvis relevant)

  • hvordan dataene er renset og kvalitetssikret

  • om datasettet er basert på reelle observasjoner, syntetiske data eller en kombinasjon

  • hva som var det opprinnelige formålet med innsamlingen av dataene

  • hvilke forutsetninger og antakelser som ligger til grunn for datasettet

  • hvilke kjente svakheter, skjevheter eller usikkerheter som finnes i dataene

  • hva datasettet ikke er egnet til å brukes til

  • hvordan datasettet er dokumentert (for eksempel et datasheet) og hvor denne dokumentasjonen er tilgjengelig

  • hvor representativt datasettet er for den tiltenkte bruken

  • hvilken versjon av datasettet som er brukt

For systemets ytelse og begrensninger bør du som minimum dokumentere

  • hvor godt systemet fungerer (nøyaktighet, presisjon osv.)

  • kjente begrensninger, inkludert for ulike grupper

  • mulige feil og risikoer, for eksempel knyttet til skjevhet eller diskriminering

For bruk, overvåking og kontroll bør du som minimum dokumentere

  • hvordan systemet skal brukes

  • hvilke krav som stilles til input-data

  • hvordan mennesker kan overvåke og kontrollere systemet

  • hvordan resultatene kan tolkes

Hva leter du etter?