Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
vLLM Blog · 3T SIDEN · forskning

vLLM Micro-Agent: små modeller samarbeider og slår frontmodeller i API-et

SYNOPSIS_GENERERT

vLLM Semantic Router lar flere mindre modeller samarbeide bak ett API-kall og matcher eller slår frontmodeller på harde benchmarks, til en brøkdel av kostnaden.

Mens kappløpet handler om neste frontmodell, satser vLLM på laget foran den: en semantisk ruter som gjør ett vanlig API-kall om til et lite, disiplinert team av modeller. Brukeren kaller fortsatt bare ett modellnavn, vllm-sr/auto, mens ruteren i bakgrunnen velger en oppskrift, fordeler jobben på flere modeller, samler en quorum, megler uenighet og syntetiserer ett svar.

vLLM Semantic Router kaller mønstrene «loopere», og fem finnes i dag. Confidence eskalerer fra en billig modell til en dyrere bare når selvtilliten er lav. Ratings kjører flere kandidater parallelt under et hardt samtidighetstak. ReMoM sprer reasoning bredt og syntetiserer til slutt. Fusion bruker uenighet mellom modeller som signal til en dommer. Workflows kjører planlegger, patcher og verifiserer som avgrensede roller. Poenget er at samarbeidet bor i serveringslaget, ikke i hver enkelt app.

Tallene er konkrete. På LiveCodeBench (januar til april 2025) scorer den lukkede VSR-oppskriften 92,6, mot Opus 4.8 på 90,3 og GPT-5.5 på 90,7. På GPQA-Diamond ligger den på 96,0, og på Humanity's Last Exam treffer den 50,0, likt med Sakanas Fugu Ultra. vLLM understreker selv at dette ikke betyr at hvert kall bør bruke alle modeller; poenget er at ruter-eid samarbeid kan skape en sterkere modell-identitet enn kallene under den.

«Den beste loopen er oppgaveformet.» — vLLM Semantic Router-teamet

For deg som bygger betyr det at «frontmodell» begynner å bety to ting: et enkelt sjekkpunkt, og en systemgrense. Når samarbeid blir en åpen serveringsprimitiv i stedet for noe låst inne i ett kommersielt endepunkt, kan du forbedre kvaliteten uten å røre klient-integrasjonen, og blande åpne og lukkede modeller under samme abstraksjon.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN