«Bleeding Llama»: Ollama-feil eksponerer 300 000 servere. Tre API-kall henter prompts og miljøvariabler

Cyera publiserte funnet 7. mai under navnet «Bleeding Llama». Sårbarheten har fått CVSS 9.1 fra Echo CVE Numbering Authority og påvirker alle Ollama-versjoner før 0.17.1, der fikset ligger inne. Angrepskjeden bygger på Ollamas modell-opprettingsflyt: en spesialformet GGUF-fil deklarerer en tensor-form som er mye større enn dataene faktisk lagret i fila, og under konverteringen leser Ollama forbi den allokerte bufferen og fanger opp tilstøtende heap-minne. Det lekkede minnet skrives så ut i den nye modellen i stedet for å forkastes.

Det tekniske trikset som gjør angrepet farlig er at en float-16 kilde med float-32 destinasjon utløser en tapsfri konverteringsbane som bevarer de stjålne bytene byte-for-byte. Den manipulerte modellen kan deretter pushes til en angriperkontrollert server med Ollamas innebygde push-funksjon, og data som var ment å aldri forlate maskinen, sendes ut som en helt vanlig modell-eksport. Ollamas bruk av Go sin unsafe-pakke for tensor-konvertering, kombinert med manglende validering av at metadata stemmer med filstørrelsen, er rotårsaken.

Hva ligger faktisk i det lekkede minnet? Cyera lister opp prompts fra andre brukere, system-prompts fra andre modeller på samme instans, og miljøvariabler fra prosessen som kjører Ollama. I bedriftsmiljøer betyr det API-nøkler, intern produktdokumentasjon, kundedata og proprietær kode som har vært gjennom KI-arbeidsflater. Risikoen stiger når Ollama er koblet mot kode-assistenter eller eksterne verktøy, fordi disse outputene også passerer gjennom det samme minnet.

«Lekket heap-data kan inkludere brukerens prompts, system-prompts fra andre modeller og miljøvariabler lagret av verten» — Cyera-rapporten

Shodan og Censys-søk på port 11434 har lenge vist at Ollama er en av de mest internett-eksponerte selvhostede KI-tjenestene. Tallet på 300 000 servere kommer fra Cyeras egen scanning. Anbefalingene fra forskerne er å gå til 0.17.1 umiddelbart, fjerne offentlig eksponering, sette Ollama bak autentisering, rotere hemmeligheter, og anta at prompts og miljødata allerede kan være kompromittert hvis instansen har vært åpen mot internett.

Hva bør du gjøre?

Oppgrader til Ollama 0.17.1 eller nyere nå: kjør ollama --version for å sjekke. Hvis du kjører via Docker, dra siste image og restart.
Fjern internett-eksponering: kjør ss -tlnp | grep 11434 på serveren. Hvis adressen er 0.0.0.0:11434 og porten er åpen utad, sett OLLAMA_HOST=127.0.0.1:11434 og legg en autentisert reverse proxy foran.
Roter alle hemmeligheter prosessen har sett: API-nøkler i miljøvariabler må antas kompromittert. Sjekk loggene for ukjente push-forespørsler etter 6. mai.