Transformers v5.8.0 lander med innebygd DeepSeek-V4 og Gemma 4 Assistant for spekulativ dekoding

Releasen lander med native modellklasser for DeepSeek-V4-Flash, V4-Pro og deres Base-varianter. Implementasjonen erstatter Multi-head Latent Attention (MLA) fra V3 med en hybrid lokal pluss langtrekk-attention, bytter residualer mot Manifold-Constrained Hyper-Connections, og bootstrapper de første MoE-lagene med en statisk token-til-ekspert-hash-tabell.

Den andre store nyheten er Gemma 4 Assistant. Det er en liten tekstmodell som deler Gemma4TextModel-backbone med målet og gjenbruker hele KV-cachen, så den hopper over prefill helt. Resultatet kobler seg direkte til Googles MTP-drafter-utgivelse og gir spekulativ dekoding rett i Transformers-pipelinen.

«Apex-integrasjonen er fjernet, så brukere som lente seg på Apex for fused ops må migrere til PyTorchs native ekvivalenter.» — release notes

Utenom modellene leverer releasen et ~300x speedup i PreTrainedTokenizer.convert_ids_to_tokens når skip_special_tokens=True, og fikser tokenizer-mappingen for DeepSeek R1 distilled (Qwen2). Det er reell hverdagsforskjell hvis du har masseinferens som flusher sub-tokens.

Hva bør du gjøre?

pip install -U transformers==5.8.0 hvis du allerede har en DeepSeek- eller Gemma-pipeline
Sjekk om koden din importerer noe fra Apex; bytt til torch.nn.RMSNorm eller PyTorch native equivalents før du oppgraderer
Hvis du kjører Gemma 4 lokalt, koble på Gemma 4 Assistant som drafter og mål faktisk tokens/s mot din nåværende oppsett