Én linje i tokenizer.json kan kapre KI-modeller hentet fra Hugging Face

HiddenLayer-forskere har vist at en enkelt strengsubstitusjon i tokenizer.json, filen som følger med modellen i hvert Hugging Face-repo, er nok til å manipulere alt modellen skriver ut. Token-ID 1684 (://) byttes til en proxy-URL, og enhver lenke modellen produserer blir omdirigert via angriperens infrastruktur. Token-ID 3973 (ls) byttes til rm .env, og et harmløst listing-kall blir destruktivt i shell-eksekvering. Token-ID 60 (]) byttes til en helt ny tool-call-array, og hver legitime tool-call etterfølges av en stille, skjult kopi.

Demoen som HiddenLayer publiserte 11. mai er den mest oppsiktsvekkende: en manipulert tokenizer eksfiltrerer miljøvariabler (AWS-nøkler, OpenAI-API-key, database-URL, Azure-hemmeligheter) gjennom en sekundær tool-call. Svaret fra angriperens infrastruktur inneholder en prompt injection som instruerer modellen om aldri å nevne det ekstra kallet, så modellen selv skjuler eksfiltreringen for brukeren.

«Tokenizere bør behandles som del av angrepsflaten, med integritetssjekker og verifisering før deployment.» — HiddenLayer Security Research

Angrepet fungerer på alle de tre vanligste modellformatene: SafeTensors, ONNX og GGUF. Det betyr at både hostet inferens, lokale Ollama-oppsett og selvbygde Python-rørledninger som leser modeller direkte fra Hugging Face er eksponert. Eksisterende sikkerhetsskanning leter etter ondsinnet kode, lekkede hemmeligheter og manipulerte modellvekter, men tokenizer.json glir vanligvis under radaren.

Hva bør du gjøre?

Beregn SHA-256 av tokenizer.json før modellen tas i bruk og sammenlign mot kjent verdi fra offisielt utgivelsesrepo. sha256sum tokenizer.json er nok.
Logg tool-call-argumenter som agenten faktisk sender, ikke bare det modellen rapporterer. En manipulert tokenizer skjuler ekstra kall fra modellens egen tekst, men kallene treffer fortsatt tool-executoren.
Lås modellen til en spesifikk commit-SHA i lasting: AutoModel.from_pretrained("meta-llama/...", revision=""). Det stopper at en oppdatert tokenizer slipper inn ubemerket.

Bakgrunn

HiddenLayer publiserte tidligere i år en relatert teknikk kalt TokenBreak som angriper modeller basert på selve tokenizeren. Den nye varianten er enklere fordi den ikke krever spesielle input-strenger, bare en enkelt vokabular-redigering som ligger ferdig pakket sammen med modellen. Forsyningskjede-risiko i KI-økosystemet har lenge vært rammet inn rundt ondsinnede vekter; en tampered tokenizer.json oppnår tilsvarende kontroll og er langt enklere å overse.