IBM slipper Granite Embedding 311M R2 med 32K kontekst og 11,8 poeng MTEB-løft

IBM slapp 29. april Granite Embedding 311M Multilingual R2, en dense embedding-modell med 311 millioner parametre som produserer 768-dimensjonale vektorer og håndterer 32 768 tokens kontekst (opp fra 512 i R1). Tallene er hentet fra IBMs egen modellkort dekket av TPS Report.

Modellen scorer 64,0 på Multilingual MTEB Retrieval over 18 oppgaver, en forbedring på 11,8 poeng over forgjengeren granite-embedding-278m-multilingual (52,2). Snittet over alle retrieval-benchmarks er 56,0, opp 14,2 poeng. Arkitekturen er byttet fra XLM-RoBERTa til ModernBERT med alternerende attention, GeGLU og rotary position embeddings.

«Treningsdataene bruker permissive, enterprise-vennlige lisenser, inkludert IBM-innsamlede og IBM-genererte datasett.» — IBM modellkort

For deg som bygger RAG på norsk er to ting verdt å notere. R2 har eksplisitt cross-lingual-trening for 52 språk og 9 programmeringsspråk, og Matryoshka-støtten lar deg trunkere fra 768 ned til 128 dimensjoner uten å bytte modell. Det betyr at du kan tune balansen mellom vektordatabase-kostnad og treffkvalitet uten reindexing.

Distribusjon er gjort enkel: ONNX og OpenVINO-bygg er klare for CPU og edge, og GGUF gjør at llama.cpp og vLLM bare fungerer. Apache 2.0-lisensen rydder vekk juridisk friksjon for kommersiell bruk.

Hva bør du gjøre?

Last ned granite-embedding-311m-multilingual-r2 fra Hugging Face og kjør din egen retrieval-eval mot R1-snittet ditt. 11,8 poeng på MTEB betyr ikke automatisk like stor økning på din norske korpus.
Vurder å bytte fra 768-dim til 384-dim Matryoshka hvis Qdrant- eller pgvector-regningen din er en flaskehals. IBMs egne tall viser «gradvis degradering» nedover.
Hvis du kjører multilingual i produksjon i dag, sammenlign mot 97M-varianten (granite-embedding-97m-multilingual-r2) for latency-sensitive baner.

Bakgrunn

R1-versjonen (278M) ble lansert i fjor og var IBMs første åpne multilingual embedding-modell. R2-overgangen til ModernBERT følger en bredere trend der embedding-leverandører hopper fra encoder-only-arkitekturer fra 2019-2020 til modernere stacker. IBM planlegger å publisere full forskningsartikkel i mai 2026.