Gå til hovedsiden

Slik fører kunstig intelligens til bedre personvern i NAV

NAV har et stort behov for å teste datasystemene sine, og det med så reelle data som mulig. Kunstig intelligens kombinert med en verdikjedetilnærming har vist seg å være sukessoppskriften for å sørge for testdata som ivaretar personvernet

Syntetiske persondata i NAV

I mange omganger har man prøvd ut maskering eller anonymisering av produksjonsdata uten at man har funnet en løsning som holder mål. Med det mener vi at de produserte dataene ikke har en like stor grad av spredning som de reelle dataene og at personopplysninger kunne lekke ut gjennom usikre anonymiseringsteknikker. 

Disse teknikkene var derfor ikke holdbare og man måtte se etter en ny løsning for testdata. 

En ny teknikk basert på kunstig intelligens kombinert med en verdikjedetilnærming (kontra databasetilnærming) har vist seg å være sukessoppskriften for å sørge for testdata som ivaretar personvernet. All nyutvikling skjer nå på syntetiske testdata

Derfor fører kunstig intelligens nå til bedre personvern i NAV.

Verdikjedetilnærming ble løsningen

NAV hadde 1200 databasetabeller i sitt system som kalles Arena. For å kunne lage syntetiske testdata trengte man en oversikt over disse tabellene. Derfor så man på hvor dataene kommer inn, hvor går data ut og hva må man legge på her for å kunne jobbe med maskinlæring? 

Å benytte seg av en verdikjedetilnærming betyr at man lager kunstige data i grensesnittene mellom systemer, istedenfor langt nede i databaser. Denne tilnærmingen medfører at par praktiske fordeler:

  • Det er færre grensesnitt enn databasetabeller. Dette fører til at man gjør en mindre jobb, da det er færre koblinger å holde styr på.
  • Data kommer inn på akkurat samme måten som reelle data. Dette gjør at vi kan gjenbruke dataflyter. Applikasjonene håndterer også forretningslogikken som gjør at vi får konsistens i dataene våre.
  • Når vi benytter eksisterende verdikjede for data inn i systemet, får vi automatisk også benyttet verdikjedene ut av gjeldende system. Distribusjonsmekanismer fungerer “out-of-the-box”.

En verdikjedetilnærming ble derfor løsningen for å skape seg oversikt.

Les mer om løsningen her: Tre basisløsninger for syntetiske data i NAV

Kunstig intelligens i sentrum

Selve kjernen i denne løsningen består av kunstig intelligens levert av Visma.

Denne kjernen lager data som “hermer” etter produksjonsdataene. Det betyr at de maskinlærte modellene genererer syntetiske testdata med de samme egenskapene som det opprinnelige datasettet. Disse dataene dekker nødvendig spredning for testing og utvikling av it-systemer ved at dataene blir så nært reelle data som mulig. 

Om du mot formodning ikke skulle være fornøyd med disse dataene har vi også laget en self-service løsning for å generere dine egne data. Løsningen gjør at alle kan opprette og skreddersy syntetiske data etter deres behov, ved å legge inn ulike egenskaper. For eksempel dersom man ønsker å teste en uvanlig situasjon kan du opprette testdata for denne situasjonen og så kjøre test på dette.

Vil du lese mer om selve løsningen? Klikk her. 

Hva med personvern i løsningen?

Testdataene som produseres gjennom denne modellen med kunstig intelligens er helt sikre og umulig å spore tilbake til enkeltpersoner. Selve prosessen med å hente ut treningsdata til den kunstige intelligensen kvalitetssikres på følgende måte:

  • Alle direkte identifiserende egenskaper blir tatt bort (som fødselsnummer og navn). 
  • Det gjøres en kvalitativ analyse av resten av datasett, der statistiske abnormaliteter blir slettet.
  • Vi sitter nå igjen med anonyme data som ikke kan kobles tilbake til noen enkeltpersoner. Disse dataene brukes for å trene den kunstige intelligensen.

Les mer: 3 grunner til å velge syntetiske testdata

Hva har dette ført til? 

NAV brukt svært mye tid og ressurser på å opprette testdata tidligere. Nå er denne prosessen blitt drastisk mye raskere, ved at du kan generere opp til 10.000 syntetiske personer på noen få minutter. 

I tillegg til at denne løsningen har spart mye tid og ressurser er den også helt sikker og anonym. Det er helt umulig å spore tilbake til enkeltpersoner. På den måten sørges det for at man bevarer personvernet til enkeltpersoner og man kan trygt teste på disse dataene. 

Guide: Syntetiske testdata som en løsning for personvern: Hva, hvordan og hvorfor

Hvordan kan man teste datasystemer uten å gå på bekostning av personvernlovgivningen? Hvordan kan man sikre at man skaper helt anonyme personopplysninger?

Last ned guiden her