Bleeding Llama: kritisk Ollama-svakhet lekker minneinnhold fra 300 000 servere

Cyera Research publiserte 2. mai en kritisk svakhet (CVE-2026-7482, CVSS 9.1) i Ollama som lar en uautentisert angriper lekke hele prosesshukommelsen med tre API-kall. Funnet ble offentliggjort etter at MITRE drøyde med CVE-tildelingen i nesten to måneder; Cyera gikk via Echo som tredjeparts-CNA for å få nummeret 28. april.

Buggen ligger i Ollamas kvantiserings-pipeline, spesifikt funksjonene WriteTo og ConvertToF32 som behandler GGUF-filer. Ollama leser tensor-dimensjoner direkte fra GGUF-headeren uten å sjekke at de matcher den faktiske bufferen som er allokert. En crafted GGUF som påstår at tensoren er én million elementer stor, men bare leverer noen få, får Ollama til å lese forbi buffer-grensen og inn i tilstøtende heap-minne. Der ligger system-prompts, brukerprompts og miljøvariabler.

«Tenk på en bedrift med 10 000+ ansatte som bruker Ollama som intern KI-chat. Med tre API-kall kan en angriper lære nesten alt om organisasjonen: API-nøkler, proprietær kode, kundekontrakter.» — Cyera Research, lansering 2. mai

Eksfiltreringen er elegant: angriperen setter modellens navn til en URI (http://attacker.com/ns/model:tag), så bruker /api/push for å laste den lekkede heap-blokken rett til sin egen server. Triks med F16 til F32-konvertering holder dataen lossless, så miljøvariabler og prompts kommer ut lesbare på den andre siden. Ingen feilmelding, ingen krasj. Ollama-prosessen fortsetter helt normalt.

Risikoen forsterkes av at Ollama lytter som default på 0.0.0.0 uten autentisering, og det er rundt 300 000 internett-eksponerte instanser. Mange utviklere kobler også Ollama mot Claude Code eller andre agenter, så tool-outputs flyter gjennom heapen og kan plukkes opp. Selve oppdagelsestidslinjen er en lærepenge i ansvarlig disclosure-friksjon: rapportert 2. februar, MITRE tildelte aldri CVE, og det tok til april før Echo steppet inn.

Hva bør du gjøre?

Oppgrader Ollama til 0.17.1 nå med ollama --version for å sjekke versjon, deretter curl -fsSL https://ollama.com/install.sh | sh eller pakkebehandler-oppdatering.
Bind serveren til localhost hvis du ikke trenger remote access: OLLAMA_HOST=127.0.0.1:11434 ollama serve. Default 0.0.0.0 er greit i et hjemmenett bak ruter, men dødelig på en VPS uten brannmur.
Sjekk om du allerede har vært eksponert ved å se på Ollama-logger etter unormale /api/create-kall med URI-aktige modellnavn, eller /api/push-kall til eksterne hoster. Roter system-prompts og miljøvariabel-hemmeligheter hvis du finner spor.

Bakgrunn

GGUF-formatet ble laget av llama.cpp-prosjektet for å lagre kvantiserte modellvekter effektivt. Ollama bruker en intern struktur kalt Layer for å håndtere GGUF, og kvantiserings-koden er skrevet i Go, men bruker unsafe-pakken for å oppnå tilstrekkelig ytelse. Hele svakheten oppstår i den ene escape-hatchen som omgår Go sin innebygde minnesikkerhet.