Be Claude, ChatGPT og Gemini om «et tilfeldig tall mellom 1 og 10», og du får nesten alltid 7. Spør om en metafor for tid, og svaret blir «tiden er en elv». Denne konvergensen er kjernen i det forskere nå kaller «groupthink»: LLM-er er langt mer forutsigbare og mindre kreative på åpne spørsmål enn folk tror, og ulike modeller lander på nesten identiske svar.
Den australske startupen Springboards svarer med Flint, en modell bygget oppå Alibabas open-source Qwen 3, ifølge MIT Technology Review. I stedet for å skru opp temperature globalt, som gjør modeller inkoherente (OpenAIs modell byttet fra engelsk til kode midt i en setning på maks-innstilling), trente Springboards Qwen 3 til å kjenne igjen punktene i outputen der variasjon faktisk er mulig, og bare øke tilfeldigheten der.
«De fleste språkmodeller kjemper mot hallusinasjoner. Vi ønsker dem velkommen.» — Pip Bingemann, medgründer og CEO i Springboards
Problemet er dokumentert. Paperet «Artificial Hivemind», som vant «best paper» på NeurIPS, spurte 25 ulike LLM-er (både amerikanske toppmodeller og kinesiske open-source-modeller) 50 ganger hver om en metafor for tid. De fleste av de 1250 svarene var en variant av «tiden er en elv» eller «tiden er en vever». Forskerne spekulerer i at årsaken er at modellene trenes på lignende data på lignende måter. OpenAI påpeker at paperet studerte 2024-modeller som siden er oppdatert.
For deg som bygger, ligger poenget i mekanismen, ikke produktet: variasjon er et lokalt problem du kan styre punktvis i genereringen, ikke en global temperature-knott. Flint er fortsatt en prototype som «faller over når du presser den for langt», så verdien nå er innsikten i at brainstorming og idégenerering krever en annen sampling-strategi enn koding og faktasøk.