Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
CnTechPost · 29.4., 16:09 · modell

Ant Group åpner Ling 2.6 Flash: 104B MoE med 7,4B aktive parametere og 340 tokens/sekund

SYNOPSIS_GENERERT

Ling 2.6 Flash er Apache-lisensiert med BF16-, FP8- og INT4-versjoner; på 4× H20-oppsett gir den 340 tokens per sekund og bruker rundt en tidel av token-budsjettet til Nvidias Nemotron-3-Super.

CnTechPost meldte 29. april at Ant Group har åpnet Ling 2.6 Flash for nedlasting. Modellen er en mixture-of-experts-instruct-modell med 104B totale og 7,4B aktive parametere, og den kommer i tre kvantiseringer fra start: BF16 for forskning, FP8 for produksjon med Hopper-GPU-er, og INT4 for VRAM-knappe oppsett. Lisensen er Apache, så kommersiell bruk er ukomplisert.

Modellen fikk to ukers anonym test på OpenRouter under navnet «Elephant Alpha» før Ant satte navnet på. Det er en uvanlig lansering: i stedet for å selge på benchmark-tabeller, lot de utviklere bruke modellen blindt og samle reell tilbakemelding. På bakgrunn av disse tilbakemeldingene har teamet videreutviklet bilingvisk veksling mellom kinesisk og engelsk og kompatibilitet med kodeframmework.

«I full evaluering av Artificial Analysis var token-forbruket bare cirka en tidel av modeller som Nemotron-3-Super, hvilket vesentlig hever intelligens-til-effektivitet-forholdet.» (Ant Group via CnTechPost)

For agent-arbeidsflyter er token-budsjettet ofte den begrensende faktoren, ikke ren råintelligens. En multi-step-agent som ringer verktøy fem ganger per oppgave brenner 5x flere tokens enn en single-shot-spørring. Hvis Ant sin tidels-påstand stemmer i din workload, betyr det at en agent som koster 50 dollar per dag på en større modell, kan koste 5 dollar på Ling 2.6 Flash. På 4× H20 produserer den 340 tokens per sekund, og fordi MoE-arkitekturen bare aktiverer to eksperter per token, blir VRAM-fotavtrykket per inferens lite selv om totalt parameter-tall er stort.

>_ NØKKELTALL
104B totale parametere (full modell på disk)
7,4B aktive parametere per inferens
340 tokens/sekund på 4× H20-oppsett
~1/10 token-forbruk versus Nemotron-3-Super

Den hybrid-lineære arkitekturen er nøkkelen til effektiviteten. Ant beskriver den som en bevisst optimalisering nedenfra og opp av compute-effektivitet, ikke som etterhåndsdestillasjon av en større modell. INT4-versjonen kan kjøres på consumer-class server-GPU-er; BF16 trenger H100-klasse for full ytelse.

Hva bør du gjøre?

  1. Hent INT4-vektene fra Hugging Face og test mot din eksisterende agent-pipeline. Mål token-forbruk per oppgave før og etter, ikke bare benchmarks.
  2. Sjekk om dine eksisterende verktøykall fungerer; Ant har spesifikt jobbet på tool calling og kompatibilitet med Python-rammeverk basert på OpenRouter-feedback.
  3. Hvis du allerede kjører på OpenRouter, søk opp «Ling 2.6 Flash» direkte i prøvemiljøet før du lokal-deployer. Du sparer en GPU-helg hvis modellen ikke matcher arbeidsflyten din.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN