InfoQ rapporterer at Cloudflare deler LLM-prosesseringen i to faser på ulik maskinvare: prefill (som leser input og fyller KV-cachen) er compute-bound, mens decode (som genererer output-tokens) er memory-bound. Ved å disaggregere disse til separate optimaliserte systemer øker Cloudflare GPU-utnyttelsen.
«For pipeline-parallellisme prøver Infire å lastbalansere alle stadier av pipelinen, slik at GPU-ene i ett stadium ikke sulter mens andre eksekverer.» — Michelle Chen, Kevin Flansburg og Vlad Krasnov, Cloudflare
Infire ble først annonsert under Cloudflares Birthday Week 2025. Motoren kjører Llama 4 Scout på bare to H200-er med rom for store kontekstvinduer, og Kimi K2.5 (over 1 billion parametere, ca. 560 GB) på åtte H100-er. Cloudflare har også introdusert «Unweight» som de hevder komprimerer modellvekter med 15–22 prosent uten nøyaktighetstap, noe som reduserer mengden data GPU-ene må flytte under inferens.
Cockroach Labs sin State of AI Infrastructure-rapport peker på at mange selskaper oppdager at infrastrukturen ikke er bygget for KI-arbeidslaster i full skala. Cloudflare er blant tilbyderne som svarer på dette ved å bygge custom-stack for både trening og inferens, ikke bare lene seg på vLLM eller TensorRT.
Hva bør du gjøre?
- Hvis du eksperimenterer med store open-source-modeller på Workers AI: prøv Kimi K2.5 og se om disaggregert prefill faktisk gir bedre latens enn standard inferens på din workload.
- Følg med på om Infire eller Unweight blir tilgjengelig som åpen kildekode eller via API utenfor Cloudflares plattform. For nå er optimaliseringene innelåst i deres egen stack.
- Vurder hva det betyr for vendor lock-in: jo mer av modell-stacken som er proprietær, jo vanskeligere blir det å flytte arbeidslaster mellom skyer.