Kritisk Ollama-feil lekker minne fra 300 000 selvhostede servere

CSO Online rapporterer at sikkerhetsforskere hos Cyera har funnet en kritisk sårbarhet i Ollama som gir uautoriserte angripere direkte tilgang til prosessminne på rundt 300 000 internett-eksponerte servere. Feilen, som forskerne kaller «Bleeding Llama», ligger i hvordan Ollama laster GGUF-filer i quantization-pipelinen.

Mekanismen er enkel: en angriper laster opp en spesialformet GGUF-fil som oppgir en mye større tensor-størrelse enn den faktiske data, og tvinger Ollama til å lese forbi den tiltenkte buffer-grensen. Tre API-kall er nok for full utnyttelse. Lekkasjen kan inneholde brukerprompter, system-prompter, samtalehistorikk på tvers av brukere, API-nøkler og hemmeligheter fra miljøvariabler, samt proprietær kode som er sendt til modellene.

«En ondsinnet aktør kan lage en GGUF-fil som oppgir en langt større tensor-størrelse enn den faktiske data, som tvinger Ollama til å lese godt forbi den tiltenkte buffer-grensen og få tilgang til sensitive data lagret på heap-en.» — Cyera-forskerne

Ollama er bredt brukt med over 170 000 GitHub-stjerner og 100 millioner Docker Hub-nedlastinger. Standardkonfigurasjonen gir ingen autentisering, og selv om bind-adressen som default er 127.0.0.1, settes den ofte til 0.0.0.0 av brukere som vil dele instansen på et hjemmenett. Det er også mange eksponerte servere på lokale nettverk i tillegg til de 300 000 på offentlig internett.

>_ NØKKELTALL

300 000: Antall Ollama-servere eksponert på offentlig internett

3: API-kall som trengs for full utnyttelse

0.17.1: Ollama-versjonen som inneholder fiksen

Hva bør du gjøre?

Oppgrader umiddelbart til Ollama 0.17.1. Sjekk versjonen med ollama --version.
Roter API-nøkler og hemmeligheter hvis serveren har vært eksponert mot internett. Cyera advarer: «Anta at miljøvariabler og hemmeligheter i minnet kan være kompromittert.»
Sett opp en autentiserings-proxy eller API-gateway foran Ollama. Eksponer aldri Ollama direkte mot internett uten IP-filter og brannmur.
Bind til localhost (127.0.0.1) hvis du ikke trenger nettverkstilgang. Hvis du trenger LAN-tilgang, isoler Ollama på et eget nettverkssegment.

Bakgrunn

Ollama kjører lokale store språkmodeller via en REST API-server, og er en av de mest brukte rammeverkene for selvhostet inferens. Sårbarheten understreker en bredere svakhet ved KI-rammeverk: mange er bygget for utviklingsmiljøer der autentisering er nedprioritert, men brukes i praksis på utstyr som er eksponert mot nettet.