Mens de fleste nye språkmodeller arver arkitektur fra GPT- eller LLaMA-familien, presenterer Wiola-artikkelen på arXiv en modell bygget fra første prinsipper uten slikt slektskap. Målet er lavere inferenskostnad på ressursbegrensede oppsett, altså nettopp de maskinene du kjører lokale modeller på.
Kjernen er fem uavhengige komponenter:
- Spiral Rotary Positional Encoding (SRPE) legger token-posisjoner på en tredimensjonal spiralformet flate som kombinerer absolutte, relative og hierarkiske signaler.
- Gated Cross-Layer Attention (GCLA) gir hvert dekoderlag myk tilgang til komprimerte sammendrag av de to foregående lagene.
- Adaptive Token Merging (ATM) slår sammen semantisk overflødige nabotokens i midtre lag for å kutte attention-kompleksitet.
- Dual Stream Feed-Forward (DSFF) erstatter den vanlige MLP-en med to parallelle strømmer fusjonert av en lært gate.
- WiolaRMSNorm legger til en lært forskyvningsvektor per dimensjon for å hindre representasjonskollaps.
Artikkelen sammenligner Wiola direkte mot GPT-2, LLaMA-2 og Mistral, og modellen kommer i fire størrelser: 120M, 360M, 700M og 1,5B parametere. Alle 22 arkitektur-enhetstestene passerer, og modellene er kompatible med HuggingFace Transformers.
Det store forbeholdet er at dette foreløpig er en arkitekturartikkel med matematiske utledninger og enhetstester, ikke uavhengige ytelsestall mot etablerte modeller i praksis. Om Wiola faktisk slår en LLaMA-2 av samme størrelse på reelle oppgaver, gjenstår å se. For deg som eksperimenterer med lokale modeller er det likevel et sjeldent forsøk på å tenke arkitektur på nytt i stedet for å finjustere noe som allerede finnes.