Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
GitHub / Dataiku · 1.5., 20:16 · verktøy

Kiji-proxy: selvhostet proxy maskerer 26 typer PII før kallene går til OpenAI

SYNOPSIS_GENERERT

Dataiku slipper kiji-proxy som åpen kildekode, en lokal proxy som maskerer 26 typer PII i prompts før de sendes til OpenAI eller Anthropic.

Når du sender en prompt til OpenAI eller Anthropic, havner kundedata, e-poster og personnummer på fremmede servere uten noen filter mellom appen din og modellen. Dataikus 575 Lab har lagt ut kiji-proxy som åpen kildekode for å lukke det gapet — en lokal proxy som maskerer 26 typer personidentifiserbar informasjon før kallene går videre.

Verktøyet kjører som en desktop-app på macOS eller en standalone-server på Linux, og fanger HTTP-trafikk via PAC (Proxy Auto-Config). Den bytter ut e-poster, telefonnumre, kredittkort og 23 andre PII-kategorier med realistiske dummy-verdier, og restaurerer originalverdiene i svaret før appen din ser dem. Detektoren er en DistilBERT-modell som kjører via ONNX Runtime lokalt med under 100 ms latens for de fleste forespørsler.

På macOS setter installasjonen automatisk opp proxy-konfigurasjon for Safari og Chrome, så du slipper å fikle med miljøvariabler. På Linux må du sette HTTP_PROXY=http://127.0.0.1:8081 selv. Det finnes også en Chrome-utvidelse som flagger PII inline i ChatGPT- og Claude-grensesnittene før du trykker send.

I praksis er dette nyttig hvis du bruker ChatGPT til kundesupport, sender logger til Claude for analyse, eller må forholde deg til GDPR i et team som vibe-coder med eksterne modeller.

Hva bør du gjøre?

  1. Test først lokalt: Last ned siste release fra github.com/dataiku/kiji-proxy/releases og kjør mot et test-API før du peker produksjonskoden mot proxyen.
  2. Sjekk dekningen: De 26 PII-typene dekker norske personnumre, men ikke alle norske bankkonto-formater. Verifiser med dine egne testdata før du stoler på den.
  3. Logg maskeringene: Kiji skriver hver substitusjon til logg. Bruk det til å verifisere at riktig data faktisk blir maskert i ditt scenario.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN