Releasen lander med native modellklasser for DeepSeek-V4-Flash, V4-Pro og deres Base-varianter. Implementasjonen erstatter Multi-head Latent Attention (MLA) fra V3 med en hybrid lokal pluss langtrekk-attention, bytter residualer mot Manifold-Constrained Hyper-Connections, og bootstrapper de første MoE-lagene med en statisk token-til-ekspert-hash-tabell.
Den andre store nyheten er Gemma 4 Assistant. Det er en liten tekstmodell som deler Gemma4TextModel-backbone med målet og gjenbruker hele KV-cachen, så den hopper over prefill helt. Resultatet kobler seg direkte til Googles MTP-drafter-utgivelse og gir spekulativ dekoding rett i Transformers-pipelinen.
«Apex-integrasjonen er fjernet, så brukere som lente seg på Apex for fused ops må migrere til PyTorchs native ekvivalenter.» — release notes
Utenom modellene leverer releasen et ~300x speedup i PreTrainedTokenizer.convert_ids_to_tokens når skip_special_tokens=True, og fikser tokenizer-mappingen for DeepSeek R1 distilled (Qwen2). Det er reell hverdagsforskjell hvis du har masseinferens som flusher sub-tokens.
Hva bør du gjøre?
pip install -U transformers==5.8.0hvis du allerede har en DeepSeek- eller Gemma-pipeline- Sjekk om koden din importerer noe fra Apex; bytt til
torch.nn.RMSNormeller PyTorch native equivalents før du oppgraderer - Hvis du kjører Gemma 4 lokalt, koble på Gemma 4 Assistant som drafter og mål faktisk tokens/s mot din nåværende oppsett