Mens Google Cloud Sensitive Data Protection og AWS Comprehend PII sender tekst til skyen for redaksjon, slo OpenAI onsdag på bordet med en lokal motvekt: Privacy Filter er en open-weight-modell liten nok til å kjøre på egen maskin, ifølge Bloomberg Law. Ubehandlet tekst forlater dermed aldri enheten.
Modellen gjenkjenner navn, datoer, konto- og kortnumre og e-postadresser ut av boksen, og kan fintunes på egne data for bransjespesifikke mønstre. OpenAI bygget den ved å ta en ferdigtrent språkmodell, konvertere den til redaksjonsoppgaven, og trene videre på en blanding av offentlige og syntetiske data. Selskapet bruker selv en fintunet versjon internt til data-minimering.
«Vi tenker at et sterkt økosystem er ett der flere byggere har brukbare verktøy, klare retningslinjer og evnen til å forbedre beskyttelsen i egne omgivelser.» — Charles de Bourcy, personvern-ingeniør, OpenAI
Advarslene fra OpenAI er tydelige: Privacy Filter er ikke et anonymiseringsverktøy, ikke en compliance-sertifisering, og ikke en erstatning for policy-gjennomgang i juridiske, medisinske eller finansielle sektorer. Den kan også bomme på uvanlige identifikatorer. For den som bygger KI-applikasjoner fyller den likevel et hull: PII-filtrering er ofte første ledd i en trygg prompt-pipeline, og lokal kjøring reduserer både GDPR-eksponering og månedlige API-regninger.
Hva bør du gjøre?
- Last ned vektene og test på egne data før du bygger inn i produksjon. OpenAI sier modellen savner uvanlige identifikatorer — norske fødselsnumre, organisasjonsnumre og kontonumre er verdt å verifisere manuelt.
- Bruk som pre-prosessor, ikke compliance-garanti. Kombiner med regex for norske formater og menneskelig gjennomgang på høyrisiko-data før du sender prompten videre til en LLM.
- Vurder fintuning på norske mønstre. OpenAI åpner eksplisitt for det. For et kundesystem med personvern-krav kan en fintunet lokal modell være billigere enn Google eller AWS i lengden.