Det interessante for deg som kjører lange agent-økter, er hvor gevinsten sitter: på det statiske. Systemprompt og verktøydokumentasjon endrer seg nesten aldri, så uten et slikt triks betaler du for de samme tokenene i hver eneste runde. pxpipe pakker cirka 3,1 tegn inn i hvert bilde-token og lar bare ferske meldinger passere som tekst.
Haken er at trikset er lossy. Eksakte strenger som hasher kan komme forvrengt tilbake når modellen leser dem fra et bilde, og prosesseringen blir tregere fordi teksten må gjennom en vision-encoder. Nøyaktigheten spriker mellom modeller: Fable 5 treffer 100 prosent på matte-benchmarks med ferske tilfeldige tall, mens Opus 4.7 og 4.8 bommer på rundt 7 prosent av bildene. Derfor er begge avslått som standard og må skrus på manuelt.
Hva bør du gjøre?
- Test det på en agent-økt med tung, statisk kontekst i dag. Det er der 48 000 tegn krymper fra 25 000 til 2 700 tokens.
- Hold hash-følsomme oppgaver unna bilde-modus. Lossy gjengiving og eksakte strenger passer dårlig sammen.
- Følg med på prisingen. Ideen er ikke ny: Deepseek komprimerer allerede dokumenter opptil ti ganger med OCR, og skulle trikset spre seg, kan KI-selskapene svare med å heve prisen på bildeprosessering.