DeepSeek-V4-Pro koster $1,74 per million input-tokens og $3,48 per million output-tokens, ifølge prisoversikten på dataphoenix.info. Til sammenligning ligger GPT-5.5 på $35 og Claude Opus 4.7 på $30 for samme standardtest. Med cached input faller totalprisen til $3,625, og den mindre V4-Flash-varianten lander på $0,42 kombinert.
På BrowseComp scorer Pro-Max-konfigurasjonen 83,4 prosent mot GPT-5.5 sin 84,4 og slår Opus 4.7 sin 79,3. På Terminal-Bench 2.0 lander den på 67,9 prosent, jevnt med Claude (69,4) men bak GPT-5.5 (82,7). Avstanden er under fem prosentpoeng på de fleste rapporterte benchmarks.
Modellen har innebygd én million tokens kontekst og bruker bare 10 prosent av KV-cachen og 27 prosent av inferens-compute sammenlignet med V3. DeepSeek tilskriver dette tre teknikker: Compressed Sparse Attention, Heavily Compressed Attention og Manifold-Constrained Hyper-Connections for signal-stabilisering.
DeepSeek skriver også at de validerte arkitekturen på Huawei Ascend NPU-er, men brukte lisensierte Nvidia-GPU-er for selve treningen. At en modell på denne skalaen rapporterer arkitektur-validering på ikke-Nvidia-maskinvare er et tydelig signal til alle som planlegger uavhengige KI-stacks.
Hva bør du gjøre?
- Test V4-Flash først via OpenRouter eller direkte hos DeepSeek. Den er billig nok til å eksperimentere uten å rive ut eksisterende leverandør.
- Sjekk om klienten din støtter BYOP (Cursor, Continue, OpenWarp) før du skriver om noe. Protokollvalget er ofte bare et settings-bytte.
- Vent med produksjonsbytte til en uavhengig tredjepart har reprodusert benchmark-tallene. DeepSeek-tall har historisk holdt, men 1,6T-skalaen gjør verifisering tung å gjennomføre.