OpenAI slipper Privacy Filter på Hugging Face: Apache 2.0-modell merker PII lokalt med 128k kontekst

OpenAI Privacy Filter er en token-klassifiseringsmodell på 1,5 milliarder parametere totalt og 50 millioner aktive per token, post-trent fra et autoregressivt forhåndstrent sjekkpunkt med samme arkitektur som gpt-oss. Modellen kjører hele inputen gjennom én forward-pass, ikke token-for-token, og dekoder PII-spans med en constrained Viterbi-decoder over åtte kategorier: navn, e-post, telefon, adresse, dato, URL, kontonummer og «secret». Vekter er på Hugging Face under Apache 2.0, og modellen er allerede lastet ned 57 743 ganger forrige måned.

Arkitekturen kombinerer 8 transformer-blokker med grouped-query attention (14 query-heads, 2 KV-heads), sparse mixture-of-experts med 128 eksperter og top-4 routing, og 128 000 tokens kontekstvindu. Det betyr at lange dokumenter kan prosesseres uten chunking, og at runtime kan tunes mot enten precision eller recall via operasjonsparametere uten å trene modellen på nytt.

«Privacy Filter is a redaction and data minimization aid, not an anonymization, compliance, or a safety guarantee.» — Modellkortet på Hugging Face

For deg som bygger applikasjoner som mater brukerinput inn i LLM-er, er dette en konkret byggestein du kan kjøre lokalt. Modellkortet er tydelig på at det ikke erstatter en helhetlig personverntilnærming, men som første lag i en redactor-pipeline før data sendes videre til en sky-modell, gir den tunbare avveininger og en lisens som tillater kommersiell bruk.

Hva bør du gjøre?

Kjør pipeline("token-classification", model="openai/privacy-filter") i Transformers eller Transformers.js for å teste mot dine egne datakilder.
Kalibrer operasjonsparametrene mot ditt eget regime: høy recall for sanitering før logging, høy precision der over-redigering ødelegger nedstrømsanalyse.
Vurder fine-tuning hvis label-taksonomien ikke matcher policyene dine. Modellen støtter ikke runtime-konfigurasjon av nye labels.