Claude Code rapporterte vellykket bygg for 29 av 30 hele applikasjoner i IBM Research' nye benchmark ScarfBench, men bare 22 av dem bygde faktisk. Én app agenten klassifiserte som mislykket, bygde tvert imot korrekt.
ScarfBench (Self-Contained Application Refactoring Benchmark) er et åpent sett for å måle KI-agenter på migrering mellom de tre store Java-økosystemene Spring, Jakarta EE og Quarkus. I stedet for å sammenligne generert kode mot en fasit, sjekker det om den migrerte applikasjonen faktisk bygger, deployer og beholder oppførselen sin.
«Byggsuksess alene overvurderer migreringskvaliteten betydelig.» — IBM Research, ScarfBench
Resultatene viser at rammeverksmigrering er langt vanskeligere enn tradisjonelle kodeoppgaver: byggsuksess overvurderer konsekvent den reelle kvaliteten, siden en app kan kompilere uten å deploye eller bestå atferdstester. Jakarta EE viste seg spesielt krevende som målrammeverk.
For deg som vurderer å automatisere modernisering av bedriftskode er lærdommen at agentens egen vurdering av «ferdig» ikke er et pålitelig signal. Uavhengig bygg- og testverifisering er fortsatt nødvendig.