Thinking Machines lanserer «interaction models»: KI som tar imot lyd, video og tekst kontinuerlig

Mens GPT-realtime-2.0 og Gemini Live oppnår sanntidsdialog gjennom et eksternt lag av voice-activity-detection, turn-prediction og TTS-komponenter rundt selve LLMen, har Thinking Machines trent TML-Interaction-Small fra bunnen av som en kontinuerlig multi-strøm-modell. 200 ms input prosesseres samtidig med at 200 ms output produseres, og det er ingen kunstige turgrenser modellen må overholde.

Forskjellen merkes på latency: 0,40 sekunder snu-tid mot 1,18 for GPT-realtime-2.0 (minimal) og 0,59 for forrige versjon. På FD-bench V1.5, som måler kvaliteten på avbrytelser, baktale og samtidig tale, scorer modellen 77,8 mot 46,8 for samme GPT-konkurrent. Den klarer ting som tidligere bare fantes som forskningsprototyper: kontinuerlig pushup-telling i video, live-oversettelse hvor begge parter snakker samtidig, eller proaktive avbrytelser når brukeren sier noe feil.

«Most real-time commercial speech systems use voice-activity-detection components to detect turn boundaries. The bitter lesson suggests these hand-crafted systems will be outpaced by the advance of general capabilities.» — Thinking Machines Lab

Arkitekturen er todelt: en interaksjonsmodell holder samtalen levende, og en asynkron bakgrunnsmodell tar over når oppgaven krever lengre resonnering eller verktøybruk. Resultater fra bakgrunnsmodellen veves inn i samtalen idet de blir tilgjengelige, slik at brukeren får både kort responstid og full agentisk intelligens. Modellen er en 276B MoE med 12B aktive parametere, og Thinking Machines varsler større modeller senere i år.

Hva bør du gjøre?

Følg med på når research previewen åpnes hvis du bygger talegrensesnitt. Mira Muratis lab varsler bredere tilgang senere i år, og kontinuerlig modellinteraksjon kan endre hva som regnes som god UX.
Mål baseline-latency på din eksisterende stack før previewen lander. FD-bench-tallene er ikke direkte sammenlignbare uten egne tester med din workload.