Victor Taelin, mannen bak HVM og Bend, har sluppet LamBench: en benchmark som måler KI-modellers evne til å skrive korrekte programmer i Lamb, et minimalt lambda-kalkyle-språk. Repoet ble publisert 23. april 2026 på GitHub, og nettsiden victortaelin.github.io/LamBench viser oppdaterte rangeringer.
Hver av de 120 oppgavene gir modellen en problembeskrivelse, en datakodingspesifikasjon og testkasser. Modellen må returnere ett .lam-program som definerer @main. Programmet kjøres mot alle tester, og oppgaven teller kun som løst hvis alle gir riktig normalform. Oppgavene er fordelt på 12 kategorier (Algorithms, Church Naturals, Scott Trees, N-Tuples) med 10 oppgaver hver, fra trivielle (Church-nat addisjon) til harde (BF-tolker, FFT, Sudoku-løser i ren λ-kalkyle).
«Lambda-kalkyle er den minimale Turing-komplette regnemodellen, og fungerer som lakmustest for symbolsk resonnering uten støttehjul fra naturlig språk eller kjente kode-mønstre.» — Victor Taelin, README
Resultattabellen er oppsiktsvekkende på to måter. Først: GPT-5.3 Codex og Opus 4.6 deler førsteplassen med 108/120 (90 prosent), tett fulgt av Opus 4.7 og Gemini 3.1 Pro på 106 (88,3 prosent). Deretter: Opus 4.5, Sonnet 4.5 og GPT-5.1 scorer 0/120 — ikke ett eneste problem løst. Det antyder at evnen til å resonnere over rene λ-uttrykk er en relativt fersk kapabilitet som har eksplodert siden slutten av 2025.
For norske utviklere som vurderer hvilken modell å bygge agenter på, gir LamBench et signal kodingbenchmarks som SWE-bench ikke fanger: hvor godt modellen håndterer ukjent syntaks og symbolske transformasjoner. Det er relevant hvis du jobber med DSL-er, kompilatorer eller funksjonelle sjekkere.
Hva bør du gjøre?
- Hvis du allerede kjører kode-evaluering på egne modeller, klon repoet og kjør
bun benchmot din egen API-nøkkel. Resultatet skrives tilres/som timestampede tekstfiler. - Bruk LamBench-tallet som et supplement til SWE-bench når du velger modell. Gapet mellom Opus 4.7 (106) og Sonnet 4.6 (87) er større her enn på de fleste vanlige kodingbenchmarks.
- Vær varsom med å lese for mye i én benchmark. 120 problemer i en spesifikk DSL er en smal måling — koblet med andre signaler er det nyttig, alene kan det misligne.