Cloudflare splitter LLM-prosessering i to: Infire kjører Kimi K2.5 på 8 H100-er

InfoQ rapporterer at Cloudflare deler LLM-prosesseringen i to faser på ulik maskinvare: prefill (som leser input og fyller KV-cachen) er compute-bound, mens decode (som genererer output-tokens) er memory-bound. Ved å disaggregere disse til separate optimaliserte systemer øker Cloudflare GPU-utnyttelsen.

«For pipeline-parallellisme prøver Infire å lastbalansere alle stadier av pipelinen, slik at GPU-ene i ett stadium ikke sulter mens andre eksekverer.» — Michelle Chen, Kevin Flansburg og Vlad Krasnov, Cloudflare

Infire ble først annonsert under Cloudflares Birthday Week 2025. Motoren kjører Llama 4 Scout på bare to H200-er med rom for store kontekstvinduer, og Kimi K2.5 (over 1 billion parametere, ca. 560 GB) på åtte H100-er. Cloudflare har også introdusert «Unweight» som de hevder komprimerer modellvekter med 15–22 prosent uten nøyaktighetstap, noe som reduserer mengden data GPU-ene må flytte under inferens.

Cockroach Labs sin State of AI Infrastructure-rapport peker på at mange selskaper oppdager at infrastrukturen ikke er bygget for KI-arbeidslaster i full skala. Cloudflare er blant tilbyderne som svarer på dette ved å bygge custom-stack for både trening og inferens, ikke bare lene seg på vLLM eller TensorRT.

Hva bør du gjøre?

Hvis du eksperimenterer med store open-source-modeller på Workers AI: prøv Kimi K2.5 og se om disaggregert prefill faktisk gir bedre latens enn standard inferens på din workload.
Følg med på om Infire eller Unweight blir tilgjengelig som åpen kildekode eller via API utenfor Cloudflares plattform. For nå er optimaliseringene innelåst i deres egen stack.
Vurder hva det betyr for vendor lock-in: jo mer av modell-stacken som er proprietær, jo vanskeligere blir det å flytte arbeidslaster mellom skyer.