Fastino Labs slipper GLiGuard: 300M-sikkerhetsmodell matcher modeller 90 ganger større

Fastino Labs publiserte GLiGuard 12. mai, og hele poenget er størrelsen. Dagens åpne guardrail-modeller er alle decoder-baserte og bygget for fleksibilitet framfor fart: LlamaGuard4 på 12B, WildGuard på 7B, ShieldGemma på 27B, NemoGuard på 8B. GLiGuard er en encoder-modell på 300 millioner parametere som behandler sikkerhetsmoderering som et klassifiseringsproblem i stedet for en genereringsoppgave. Det går fram av en bloggpost fra Pioneer, Fastinos egen inferensplattform.

Forskjellen ligger i arkitekturen. En decoder-modell genererer sikkerhetsvurderingen sin ett token om gangen, på samme måte som en språkmodell skriver et svar. GLiGuard koder hele inndataen og alle oppgavedefinisjonene samtidig, og scorer alt i én forward pass. Den kjører fire modereringsoppgaver på en gang: trygg/utrygg-klassifisering, jailbreak-deteksjon på tvers av 11 strategier, skadekategorisering i 14 kategorier og avslagsdeteksjon. Flere sikkerhetsdimensjoner gir ikke høyere latens, det betyr bare flere etiketter i inndataen.

«De bruker tekstgenerering for å løse det som i bunn og grunn er et klassifiseringsproblem, noe som gjør dem trege og kostbare å kjøre i produksjon.» — Mary Newhauser og Urchade Zaratiana, Fastino Labs

Tallene bak påstanden: over ni sikkerhets-benchmarks scorer GLiGuard 87,7 i snitt-F1 på prompt-klassifisering, 1,7 poeng bak den beste (PolyGuard-Qwen på 7B), og nest best på respons-klassifisering. På én A100-GPU gir den opptil 16,2 ganger høyere gjennomstrømning og svarer på 26 millisekunder mot 426 for ShieldGemma-27B. Modellen er full-finetunet fra GLiNER2-base-v1 over 20 epoker, trent på 87 000 menneskemerkede eksempler fra WildGuardTrain pluss syntetiske kanttilfeller.

For deg som kjører en LLM-app eller en agent i produksjon er dette en praktisk endring. En guardrail kjører på hver forespørsel inn og hvert svar ut, og med en decoder-modell på flere milliarder parametere legger den fort hundrevis av millisekunder til hver tur i samtalen. Mange dropper derfor moderering helt, eller skyver den til en ekstern betalt API-tjeneste. På 300 millioner parametere kjører GLiGuard på ett GPU, og du kan finetune den for ditt eget domene uten tung infrastruktur. Apache 2.0-lisensen gjør at den kan kjøres selvhostet uten bindinger.

GLiGuard topper ikke treffsikkerhets-tabellen. Det modellen vinner på for hjemmebygde oppsett, er kombinasjonen av lav latens og liten størrelse: moderering blir noe du kan ha påslått hele tiden i stedet for noe du kutter for å holde appen responsiv.

Hva bør du gjøre?

Hent vektene fra Hugging Face under modell-ID-en fastino/gliguard-LLMGuardrails-300M og test dem mot dine egne prompts før du bytter ut en eksisterende guardrail.

Mål faktisk latens i ditt eget oppsett. Gevinsten på 26 millisekunder er målt på en A100, og tallet ser annerledes ut på CPU eller en mindre GPU.
Bruk avslagsdeteksjonen til å fange over-blokkering, for en modell som avviser trygge forespørsler skader brukeropplevelsen like mye som en som slipper gjennom skadelig innhold.