GLM 5.2 slår Claude i Semgreps sikkerhetsbenchmark: 39 mot 32 prosent på IDOR-funn

«En av de åpne modellene, uten noe av stillaset vårt, gikk forbi en frontier-kodeagent», skriver sikkerhetsselskapet Semgrep. I en intern test scoret GLM 5.2 fra Zhipu AI 39 prosent F1 på å oppdage IDOR-sårbarheter, mot 32 prosent for Claude Code, til rundt 0,17 dollar per funnet sårbarhet.

Semgrep prøvde egentlig ikke å kåre en open source-vinner. Spørsmålet de stilte var snevrere: hvor mye av ytelsen i sårbarhetsdeteksjon kommer fra modellen, og hvor mye kommer fra stillaset rundt den? Et stillas mater modellen kontekst, bestemmer hva den ser og looper den gjennom oppgaven. Semgreps egen multimodale pipeline, bygget for nettopp statisk analyse, scoret 53 til 61 prosent. Men de åpne modellene kjørte i et enkelt Pydantic AI-oppsett, uten endepunkt-oppdaging eller guidet navigasjon.

«Det startet som et prompt-mot-stillas-eksperiment, men mens vi kjørte det ble vi oppriktig sjokkert.» — Semgrep

Poenget er at GLM 5.2 slo Claude Opus 4.8 med bare en prompt og litt veiledning om hva en IDOR er. For deg som bygger sikkerhetsverktøy betyr det at en gratis, selvhostbar modell nå er konkurransedyktig med proprietære alternativer på en konkret oppgave, så lenge du ikke trenger det aller siste prosentpoenget.

>_ NØKKELTALL

39 %: GLM 5.2 sin F1-score på IDOR-deteksjon

32 %: Claude Code på samme test

53–61 %: Semgreps spesialbygde multimodale pipeline

0,17 $: kostnad per funnet sårbarhet med GLM 5.2

Hva bør du gjøre?

Test GLM 5.2 mot din egen kodebase før du bytter. Semgreps tall gjelder IDOR-deteksjon i et bestemt oppsett, ikke sikkerhetsanalyse generelt.
Husk at stillaset gjør mest. Den purpose-bygde pipelinen slo alle råmodellene. Skal du oppdage sårbarheter i skala, er det verktøyet rundt modellen, ikke modellvalget, som flytter mest.
Vurder lokal kjøring for sensitiv kode. En selvhostbar modell som GLM 5.2 lar deg analysere privat kildekode uten å sende den til en ekstern leverandør.