Claude Opus 4.7 leverer sårbar kode i 52 prosent av Veracode-testene

«Det er virkelig dårlig, jeg mener ubrukelig dårlig», sier TrustedSec-sjef Dave Kennedy til Forbes om Claude Opus 4.6. Den tidligere NSA-analytikeren måler kodekvaliteten med et egenutviklet verktøy som sjekker bugs, sikkerhetsproblemer og om modellen fullfører oppgaver uten feil. Fra lanseringen av Opus 4.6 i februar til i dag har tallet falt 47,3 prosent, ifølge Kennedy. Opus 4.7, den nyeste versjonen, er «marginalt bedre», men ikke på 4.6-nivå.

Sikkerhetsselskapet Veracode har kjørt 80 kodeoppgaver gjennom ulike KI-modeller det siste året. Opus 4.7 inkluderte sårbarhet i 52 prosent av svarene, opp fra 51 prosent for 4.1 og 50 prosent for den billigere Sonnet 4.5. OpenAIs modeller lå på rundt 30 prosent i samme test. Forbes publiserte funnene 22. april, sammen med klager fra KI-ansvarlige i AMD om at Claude er blitt så «overfladisk» at den «ikke kan stoles på for komplekse oppgaver».

«Det reflekterer en reell dynamikk der raskere og mer kapable modeller fortsatt kan produsere usikker kode med meningsfulle rater. Uten endringer i hvordan koden valideres og rettes, kan netto effekt se ut som mer buggy eller sårbar programvare, ikke mindre.» — Jens Wessling, sjef for innovasjon, Veracode

Anthropic sier selv at selskapet undersøker regresjonspåstandene og minner utviklere på å alltid sjekke generert kode for sårbarheter. Tidligere bekreftet Claude Code-sjef Boris Cherny på X at selskapet har skrudd ned «thinking effort» fra «high» til «medium» før koderedigering, som direkte svar på klager om høyt tokenforbruk. Det gjør Veracode-tallet vanskeligere å lese som rent ytelsesproblem: mindre resonnement er gjerne billigere, men koster i kvalitetskontroll.

>_ NØKKELTALL

52 %: Opus 4.7s andel sårbare kodesvar i Veracodes test av 80 oppgaver

47,3 %: Fall i Claude-kodekvalitet siden februar, ifølge TrustedSecs interne verktøy

30 %: OpenAIs tilsvarende sårbarhetsandel i samme test

Hva bør du gjøre?

Ikke stol på Claude-kode uten gjennomgang. Anthropic anbefaler det selv. Kjør linter, statisk analyse og egne sårbarhetsverktøy på alt Opus 4.7 genererer, spesielt auth-, validerings- og filhåndteringslogikk.
Sammenlign modeller per oppgave. Veracode-tallet tyder på at Opus 4.7 bommer hyppigere på sikkerhet enn OpenAIs modeller. Kjør samme prompt i o3 eller Sonnet 4.5 før du binder et prosjekt til én leverandør.
Vurder lokal stack for kritisk kode. Kennedy bygger selv on-prem-infrastruktur for å styre oppdateringssyklusen. For sikkerhetsgranskning og klienter med strenge krav gir det forutsigbarhet leverandørene ikke leverer akkurat nå.