Bridgewater finjusterte Qwen3-235B til 84,7 % og slo frontier-modellene

Investorer drukner i nyheter, analyser, kvartalsrapporter og e-post hver dag, men selve jobben er ikke å lese. Den er den jevne strømmen av små, gjentatte vurderinger av hva som faktisk betyr noe. Det er nettopp den triagen hedgefondet Bridgewater og Thinking Machines Lab, oppstarten til tidligere OpenAI-teknologisjef Mira Murati, ville automatisere, ifølge en rapport fra Bridgewaters AIA Labs.

De definerte seks oppgaver fra en investors hverdag, som å avgjøre om en finansartikkel er relevant for en leder, eller om et sentralbankdokument signaliserer retningen på fremtidige renteendringer. Med en enkel prompt traff varianter av Gemini, Claude og GPT bare rundt 50 %. Ekspertskrevne instruksjoner og et tretrinns vurderingssystem løftet dem til midt på 70-tallet, fortsatt under terskelen på 80 % forskerne satte for trygg bruk.

Løsningen var finjustering på Bridgewaters egne eksempler, der investorenes skjønn var nøkkelingrediensen. Billige eksterne merkere bommet på mange etiketter, så teamet lot en første modell lære av de feilbeheftede etikettene og revurdere dokumentene. Bare der modellen og den opprinnelige etiketten var uenige, gikk saken videre til en investor for retting. Treningen kjørte på Thinking Machines' Tinker-plattform oppå den åpne modellen Qwen3-235B.

I teamets egen evaluering traff den finjusterte modellen 84,7 % mot 78,2 % for den beste frontier-modellen de testet, og kostet nesten 14 ganger mindre å kjøre. Det er ingen uavhengig sammenligning, og begge selskapene har interesse av å selge resultatet.

>_ NØKKELTALL

84,7 %

finjustert Qwen3-235B

78,2 %

beste frontier-modell i testen

~50 %

frontier-modeller med enkel prompt

Poenget bak tallene er at de store laboratoriene ikke har slukt all data som finnes. Store mengder proprietær bedriftsdata og utrent menneskelig ekspertise ligger fortsatt utenfor rekkevidde, særlig der selskaper bevisst holder sine mest verdifulle data private. Gir du de dataene til et frontier-laboratorium, risikerer du å konkurrere mot et produkt bygget på dem. Å finjustere åpne modeller er alternativet der du beholder både vektene, dataene og GPU-ene.