Qwen-Scope: åpen SAE-suite med 14 vekt-grupper for tolkbarhet i Qwen3 og Qwen3.5

14 grupper sparse-autoencoder-vekter på syv Qwen-modeller. Det er det Qwen-teamet leverer i Qwen-Scope, ifølge MarkTechPost. Suiten dekker fem dense modeller (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B og Qwen3.5-27B) og to MoE-varianter (Qwen3-30B-A3B og Qwen3.5-35B-A3B). For dense backbones skaleres SAE-bredden 16× hidden size; for MoE finnes både 32K- og 128K-bredder for finere granularitet.

En sparse autoencoder fungerer som et oversettelseslag mellom modellens rå aktiveringsvektorer og menneskelige konsepter. Hvert latent feature aktiveres bare på et lite knippe input, og hver kobles til noe tolkbart: et språk, en sjanger, en sikkerhetsrelevant atferd. Qwen-Scope trener én SAE per transformer-lag på hver modell og bruker Top-k aktivering med k=50 eller 100.

I praksis betyr det at høy-nivå-atferder kan styres ved å legge til eller trekke en feature-retning fra residualstrømmen ved inferenstid. Forskningsteamet demper feature 6159 for å fjerne uønsket kinesisk-innslag i engelsk output, og aktiverer feature 36398 for å vri en historiegenerator mot klassisk-kinesisk stil. Begge eksempler uten vektoppdatering.

Bruksområdene strekker seg utover steering. SAE-feature-overlapp gir Spearman ρ ≈ 0,85 mot ytelsesbasert benchmark-redundans uten å kjøre modellen, og analysen viser at 63 % av GSM8K-features dekkes allerede av MATH. En SAE-basert toxicity-klassifikator når F1 over 0,90 på 13 språk med kun 10 % av treningsdataene. Under fine-tuning kutter SASFT-metoden over 50 % av kode-veksling på fem ulike modeller.

Hva bør du gjøre?

Last ned vektene fra Qwens Hugging-Face-side og prøv inference-time steering på din egen Qwen-deployering.
Bruk feature-overlapp til å konsolidere benchmark-suiten din. Du sparer GPU-timer.
Fine-tuner du Qwen til norsk eller flerspråklig bruk, vurder SASFT-loss for å unngå språk-mix.