Eksperimentet er enkelt bygget: brukeren sender samme prompt til begge modellene, får to anonyme svar, og stemmer på det beste. Dataene er åpne og lagrer kun anonyme innsendings-ID-er, ifølge Chambers. Tråden på Hacker News (594 poeng, 557 kommentarer) gir et bredere praktisk perspektiv enn rangeringen alene, og kommentarfeltet er der de nyttige innsiktene ligger.
«Jeg ville forstå effekten av tokenizer-endringen fra 4.6 til 4.7. Jeg er overrasket over at det er 45 prosent. Det kan gå ned med lengre kontekst, men det er fortsatt overraskende. Det kan være mer enn 2x for korte prompts.» — anabranch, øverste kommentar på HN
Tokenforbruket er det praktiske poenget for deg som betaler per token. Hvis samme svar koster 45 prosent mer i 4.7 enn i 4.6, må kvalitetsforbedringen være minst tilsvarende før byttet lønner seg rent økonomisk. Blind preferanse på en leaderboard fanger ikke opp dette, og det er verdt å lese kommentarer som justindotdev sine før du oppgraderer standard-modellen i produksjonskode.
På den andre siden fra Anthropic: Boris fra Claude Code-teamet svarer i tråden at eldre Claude Code-versjoner trigget ekstra cybersecurity-advarsler i 4.7 fordi modellen var finjustert til å ikke lenger trenge de påminnelsene. Løsningen er å kjøre claude update for å oppdatere klienten. Det er verdt å vite hvis du har sett «safety»-nekt i 4.7 som ikke ga mening.
Hva bør du gjøre?
- Kjør din egen blindtest på promptene dine som faktisk koster penger. Send 10 reelle prompts til begge modeller via API og sammenlign både kvalitet og faktisk token-forbruk.
- Oppdater Claude Code med
claude updatehvis du har sett rare sikkerhetsnekt i 4.7. Det løser Boris fra Anthropic-teamet bekrefter stammer fra utdaterte klient-prompts. - Ikke bytt standard-modell i produksjonskode basert på leaderboard-stemmer alene. Mål kostnad per løste oppgave, ikke kostnad per token eller preferanse per svar.