Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
The Decoder · 3T SIDEN · modell

Mistrals open source Leanstral 1.5 knuser formell matte og fanger ekte bugs i kode

SYNOPSIS_GENERERT

Fem tidligere ukjente bugs i 57 open source-repoer, blant annet en overflow-svakhet i Rust-biblioteket varinteger: det er fangsten fra Mistrals ferske Leanstral 1.5, en 119B-modell for Lean 4 under Apache 2.0. På matte-siden er tallene uansett hovedsaken: 100 prosent på miniF2F, 587 av 672 løste Putnam-oppgaver og 87 prosent på abstrakt algebra på masternivå. Kun den lukkede Aleph Prover slår den på PutnamBench, noe som gjør Leanstral til den sterkeste åpne modellen på feltet.

Det interessante for deg som bygger er broen fra bevis til kode. En modell som lærer å føre formelle matematiske bevis, viser seg å resonnere godt nok om invarianter til å avdekke reelle feil i programmer den aldri er trent på.

Hva bør du gjøre?

  1. Test API-et mot dine egne repoer i dag. Apache 2.0 og gratis API gjør terskelen lav.
  2. Regn med tung lokal kjøring: 119 milliarder parametere gjør at API-et er mest realistisk for de fleste.
  3. Bruk den som et ekstra par øyne i CI, ikke som erstatning for statisk analyse.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN