LamBench tester KI-modeller på lambda-kalkyle — Opus 4.6 og GPT-5.3 Codex deler førsteplassen

Victor Taelin, mannen bak HVM og Bend, har sluppet LamBench: en benchmark som måler KI-modellers evne til å skrive korrekte programmer i Lamb, et minimalt lambda-kalkyle-språk. Repoet ble publisert 23. april 2026 på GitHub, og nettsiden victortaelin.github.io/LamBench viser oppdaterte rangeringer.

Hver av de 120 oppgavene gir modellen en problembeskrivelse, en datakodingspesifikasjon og testkasser. Modellen må returnere ett .lam-program som definerer @main. Programmet kjøres mot alle tester, og oppgaven teller kun som løst hvis alle gir riktig normalform. Oppgavene er fordelt på 12 kategorier (Algorithms, Church Naturals, Scott Trees, N-Tuples) med 10 oppgaver hver, fra trivielle (Church-nat addisjon) til harde (BF-tolker, FFT, Sudoku-løser i ren λ-kalkyle).

«Lambda-kalkyle er den minimale Turing-komplette regnemodellen, og fungerer som lakmustest for symbolsk resonnering uten støttehjul fra naturlig språk eller kjente kode-mønstre.» — Victor Taelin, README

Resultattabellen er oppsiktsvekkende på to måter. Først: GPT-5.3 Codex og Opus 4.6 deler førsteplassen med 108/120 (90 prosent), tett fulgt av Opus 4.7 og Gemini 3.1 Pro på 106 (88,3 prosent). Deretter: Opus 4.5, Sonnet 4.5 og GPT-5.1 scorer 0/120 — ikke ett eneste problem løst. Det antyder at evnen til å resonnere over rene λ-uttrykk er en relativt fersk kapabilitet som har eksplodert siden slutten av 2025.

For norske utviklere som vurderer hvilken modell å bygge agenter på, gir LamBench et signal kodingbenchmarks som SWE-bench ikke fanger: hvor godt modellen håndterer ukjent syntaks og symbolske transformasjoner. Det er relevant hvis du jobber med DSL-er, kompilatorer eller funksjonelle sjekkere.

>_ NØKKELTALL

120 oppgaver fordelt på 12 kategorier

108/120 (90,0 %)

toppskår delt mellom GPT-5.3 Codex og Opus 4.6

0/120 for Opus 4.5, Sonnet 4.5 og GPT-5.1

23. april 2026 er datoen repoet ble publisert

Hva bør du gjøre?

Hvis du allerede kjører kode-evaluering på egne modeller, klon repoet og kjør bun bench mot din egen API-nøkkel. Resultatet skrives til res/ som timestampede tekstfiler.
Bruk LamBench-tallet som et supplement til SWE-bench når du velger modell. Gapet mellom Opus 4.7 (106) og Sonnet 4.6 (87) er større her enn på de fleste vanlige kodingbenchmarks.
Vær varsom med å lese for mye i én benchmark. 120 problemer i en spesifikk DSL er en smal måling — koblet med andre signaler er det nyttig, alene kan det misligne.