OpenAI Privacy Filter kjører lokalt og fjerner sensitive data fra tekst

Mens Google Cloud Sensitive Data Protection og AWS Comprehend PII sender tekst til skyen for redaksjon, slo OpenAI onsdag på bordet med en lokal motvekt: Privacy Filter er en open-weight-modell liten nok til å kjøre på egen maskin, ifølge Bloomberg Law. Ubehandlet tekst forlater dermed aldri enheten.

Modellen gjenkjenner navn, datoer, konto- og kortnumre og e-postadresser ut av boksen, og kan fintunes på egne data for bransjespesifikke mønstre. OpenAI bygget den ved å ta en ferdigtrent språkmodell, konvertere den til redaksjonsoppgaven, og trene videre på en blanding av offentlige og syntetiske data. Selskapet bruker selv en fintunet versjon internt til data-minimering.

«Vi tenker at et sterkt økosystem er ett der flere byggere har brukbare verktøy, klare retningslinjer og evnen til å forbedre beskyttelsen i egne omgivelser.» — Charles de Bourcy, personvern-ingeniør, OpenAI

Advarslene fra OpenAI er tydelige: Privacy Filter er ikke et anonymiseringsverktøy, ikke en compliance-sertifisering, og ikke en erstatning for policy-gjennomgang i juridiske, medisinske eller finansielle sektorer. Den kan også bomme på uvanlige identifikatorer. For den som bygger KI-applikasjoner fyller den likevel et hull: PII-filtrering er ofte første ledd i en trygg prompt-pipeline, og lokal kjøring reduserer både GDPR-eksponering og månedlige API-regninger.

Hva bør du gjøre?

Last ned vektene og test på egne data før du bygger inn i produksjon. OpenAI sier modellen savner uvanlige identifikatorer — norske fødselsnumre, organisasjonsnumre og kontonumre er verdt å verifisere manuelt.
Bruk som pre-prosessor, ikke compliance-garanti. Kombiner med regex for norske formater og menneskelig gjennomgang på høyrisiko-data før du sender prompten videre til en LLM.
Vurder fintuning på norske mønstre. OpenAI åpner eksplisitt for det. For et kundesystem med personvern-krav kan en fintunet lokal modell være billigere enn Google eller AWS i lengden.