42 tokens i sekundet på en Raspberry Pi 5, og 213 tokens i sekundet på en Samsung Galaxy S25 Ultra. Det er tallene Liquid AI oppgir for LFM2.5-230M, selskapets minste modell hittil, sluppet 26. juni og tilgjengelig på Hugging Face fra dag én. Liquid AI er en MIT-avlegger som bygger modeller på continuous-time- og state-space-arkitekturer i stedet for transformere, og denne modellen er rettet mot edge-utrulling og lette agent-pipelines, ikke frontier-resonnering.
Modellen er pre-trent på 19 billioner tokens og finpusset i tre trinn: supervised fine-tuning med distillering fra den større LFM2.5-350M, direct preference optimization, og reinforcement learning over flere domener. På verktøybruk-benchmarken BFCLv3 scorer den 43,26, mot 35,08 for Qwen3.5-0.8B og 16,61 for Gemma 3 1B IT, altså bedre enn modeller som veier flere ganger så mye. På instruksjonsfølging (IFEval) lander den på 71,71.
Tallene er verdt å lese med forbehold: alle målingene er Liquids egne, kjørt mot llama.cpp med enhetstilpassede flash-attention-innstillinger, og ingen uavhengig verifisering er publisert sammen med slippet.
«Modellen er ikke anbefalt for resonneringstunge oppgaver som avansert matte, kodegenerering eller kreativ skriving.» (Liquid AI, i lanseringsteksten)
For utviklere som bygger på svak maskinvare betyr inferens-støtten mer enn benchmark-tabellen. LFM2.5-230M har støtte fra dag én for llama.cpp (GGUF), MLX på Apple Silicon, vLLM, SGLang og ONNX, noe som fjerner det meste av porterings-friksjonen som vanligvis følger en ny småmodell. Liquid viste også fram en tidlig robotikk-demo der modellen kjører på en Unitree G1-humanoid med NVIDIA Jetson Orin og oversetter talekommandoer til ferdigbygde bevegelsessekvenser.
Bakgrunn
Området for modeller under én milliard parametre har fylt seg kraftig i 2025 og 2026, og det er her LFM2.5-230M plasserer seg. Poenget Liquid prøver å vise, er ikke at en 230M-modell kan resonnere som en stor sky-modell, men at en modell liten nok til å kjøre lokalt på en telefon eller en enkortsdatamaskin kan være god nok til å styre verktøykall og agent-logikk uten nettverk. At arkitekturen ikke er en transformer, gjør saken interessant utover akkurat denne modellen: hvis state-space-tilnærmingen holder det den lover på CPU, åpner det for billigere inferens på maskinvare folk allerede har.
Hva bør du gjøre?
- Bygger du for mobil eller edge? Test GGUF-varianten via llama.cpp eller MLX. Day-one-støtten gjør oppsettet kjapt.
- Ikke bruk den til resonnering, matte eller koding. Liquid fraråder det selv. Velg 350M-søsteren eller en større modell der.
- Verifiser throughput- og benchmark-tallene på din egen maskinvare før produksjon. Foreløpig finnes bare selskapets egne målinger.