140 000 stjerner på mindre enn tre måneder er trafikken bak Hermes Agent fra Nous Research, et leverandør- og modell-agnostisk rammeverk bygget for kontinuerlig lokal kjøring. NVIDIA RTX AI Garage publiserte i dag en spillbok for hvordan du kjører Hermes mot Qwen 3.6 27B eller 35B på en RTX-PC eller DGX Spark.
Det som skiller Hermes fra ferdige løsninger som Cline eller Aider er fire ting: selv-utviklende ferdigheter der agenten lagrer det den lærer fra hver oppgave, isolerte sub-agenter med små kontekstvinduer, et kuratert verktøy-bibliotek som er stresstestet av Nous Research selv, og en orkestreringsmodell som behandler agenten som en aktiv koordinator i stedet for et tynt LLM-omslag.
Maskinvare-nivået setter taket. På en DGX Spark (128 GB unified memory, 1 petaflop AI-ytelse) kjører Qwen 3.6 35B på rundt 20 GB minne, mot 70 GB+ for sammenlignbare 120B-modeller. NVIDIA hevder Qwen 3.6 35B matcher 120B MoE-modeller i nøyaktighet, og at 27B-varianten henger med 400B-modeller på flere benchmarks.
For deg som har vurdert å flytte agentkjøringen til en lokal boks: Hermes støtter LM Studio og Ollama ut av boksen, så du trenger ikke vri på llama.cpp selv.
Hva bør du gjøre?
- Klon Hermes-repoet og kjør Qwen 3.6 27B via Ollama lokalt; du får agenten i gang på under en time uten å rikke ved konfigurasjonen.
- Eksperimenter med sub-agent-modusen for arbeidsflyter der du i dag bruker én lang Claude Code-sesjon, siden mindre kontekst per agent gir billigere kjøring lokalt.
- Mål faktisk gjennomstrømming på din egen RTX før du investerer i DGX Spark; Qwen 3.6 35B på en RTX 5090 dekker mange bruksmønstre uten ekstra hardware.