Anthropics postmortem: tre stille endringer tok ned Claude Code i flere uker

Hvorfor har Claude Code føltes mer overfladisk den siste måneden? Anthropic publiserte 23. april en detaljert postmortem som sporer klagene til tre uavhengige endringer, alle rettet i v2.1.116 som ble utgitt 20. april. API-et og selve inferens-laget ble aldri påvirket, kun produktlaget over.

Den mest synlige endringen: da Opus 4.6 ble sluppet i februar, satte Anthropic default-resonnering til «high». Brukere rapporterte om frosne UI-er og høy token-bruk, og selskapet byttet stille til «medium» for å kutte latens. Kvaliteten gikk ned umiddelbart, og etter uker med klager reverserte Anthropic endringen 7. april. Alle brukere får nå «high» som default for alle modeller, og «xhigh» for Opus 4.7.

«Dette var feil avveining. Vi reverserte endringen 7. april etter at brukerne fortalte oss at de heller ville ha høyere intelligens som default, og heller velge lavere effort for enkle oppgaver.» — Anthropic, postmortem

Den andre buggen er mer teknisk interessant. 26. mars rullet Anthropic ut en cache-optimalisering: hvis en sesjon hadde vært inaktiv i over en time, skulle gamle tenkeblokker kuttes for å redusere uncached tokens. Implementasjonen kuttet derimot tenkeblokkene på hver eneste tur resten av sesjonen. Claude fortsatte å jobbe, men uten hukommelse for hvorfor den valgte de verktøykallene den gjorde, noe som forklarer rapportene om glemsel, repetisjon og rare verktøyvalg. Buggen ble fikset 10. april i v2.1.101.

Tredje endring: da Opus 4.7 landet 16. april, la Anthropic til en system-prompt-instruks som ba modellen holde tekst mellom verktøykall under 25 ord og sluttsvar under 100. En ablation-test viste 3% intelligensdropp for både 4.6 og 4.7, og linjen ble fjernet i 20. april-releasen.

>_ NØKKELTALL

3 uavhengige bugs rullet ut mellom februar og april, rettet i én samlet release

7. april, datoen Anthropic reverserte medium-default tilbake til high

3% målt intelligensdropp fra én enkelt linje i system-prompten for Opus 4.7

v2.1.116 er versjonen der alle tre er fikset (sluppet 20. april)

At alle tre endringene passerte manuelle reviews, unit-tester, ende-til-ende-tester og intern dogfooding sier noe om hvor vanskelig det er å fange modell-degradering empirisk. Anthropic erkjenner at de brukte en intern Claude Code-build med egne eksperimenter som skjulte bug nummer to i deres egen testing. De lover nå bredere eval-suiter for alle system-prompt-endringer, soak-perioder før utrulling, og at flere interne folk skal bruke eksakt samme public build som kundene får.

Hva bør du gjøre?

Oppgrader Claude Code til v2.1.116 eller nyere. Eldre versjoner har fortsatt den lekkende tenkeblokk-buggen aktiv.
Sett effort eksplisitt med /effort. Ikke stol på at defaulten matcher forventningen din. Sjekk hva du faktisk kjører før du dømmer kvaliteten.
Rapporter degradering gjennom /feedback-kommandoen. Postmortemen bekrefter at spesifikke, reproduserbare eksempler fra brukere var det som til slutt lot Anthropic identifisere årsakene.

Bakgrunn

Postmortemen er uvanlig detaljert for en stor KI-lab, og navngir PR-er, datoer og hvilke komponenter som sviktet. Anthropic nevner også at de back-testet Opus 4.7 mot de aktuelle pull requestene og fant at 4.7 faktisk klarte å identifisere bug nummer to i kode-review når den fikk full kontekst, noe 4.6 ikke klarte.