Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen

forskning

73 SAKER INDEKSERT

OpenAI

OpenAI-modell motbeviser 80 år gammel formodning i diskret geometri

[analyse] 19.5., 16:12

Andrej Karpathy går til Anthropic for å bygge team som bruker Claude i pre-trening

Andrej Karpathy bekreftet 19. mai at han har sluttet seg til Anthropic, der han skal lede et team som bruker Claude til å akselerere pre-trenings-forskning.

[forskning] 15.5., 12:33

Sikkerhetsforskere brukte Anthropics hemmelige Mythos-modell til å finne nye macOS-hull

Forskere fra Calif i Palo Alto leverte en 55-siders rapport til Apple om en privilege-escalation-sårbarhet i macOS, ifølge Wall Street Journal. Eksploiten kombinerer to bugs og flere teknikker, oppdaget under testing av en tidlig versjon av Anthropics Mythos-modell.

Robotics & Automation News

Ai2 slipper MolmoAct 2: open-source robotmodell som resonnerer i 3D før den handler

[sikkerhet] 14.5., 12:34

VectorSmuggle: forskningsverktøy viser hvordan data smugles ut via vektor-embeddinger

Hva ser sikkerhetsverktøyene dine når interne dokumenter blir omgjort til vektorer og sendt til en embedding-tjeneste? Praktisk talt ingenting, og det er hullet VectorSmuggle utnytter. Rammeverket fra Jascha Wanger i ThirdKey, sluppet under Apache 2.0, demonstrerer seks steganografiske teknikker for å skjule data inni vektor-embeddinger. De forstyrrede vektorene gir fortsatt riktige treff ved vanlige søk, men bærer samtidig informasjon en angriper vil smugle ut over helt vanlig HTTPS. Prosjektet kommer også med et foreslått kryptografisk forsvar kalt VectorPin.

[analyse] 14.5., 09:12

AISI: Claude Mythos og GPT-5.5 sprenger målestokkene for autonom cyber

Claude Mythos Preview og GPT-5.5 har passert trendlinjen britiske AISI har sporet siden 2024: tiden modeller klarer autonome cyberoppgaver på, dobles nå omtrent hver femte måned.

[forskning] 13.5., 20:20

Microsoft GridSFM løser strømflyt 1000 ganger raskere enn klassisk solver

Microsoft slipper GridSFM, en liten foundation-modell som finner optimal AC-strømflyt på millisekunder, 1000 ganger raskere enn full AC-solver og uten ny trening per nett-topologi.

[forskning] 13.5., 12:20

He Kaiming slipper ELF: 105M-modell unngår GPT-autoregresjon med kontinuerlig diffusjon

MIT-teamet til He Kaiming slipper ELF, en 105M-parameter diffusjons­modell trent på 45 mrd. tokens som når perplexity 24 på OpenWebText, under modeller trent på 10× mer data.

[forskning] 12.5., 16:19

Thinking Machines lanserer «interaction models»: KI som tar imot lyd, video og tekst kontinuerlig

Thinking Machines, Mira Muratis lab, slipper en research preview av TML-Interaction-Small. Modellen behandler lyd, video og tekst i 200 ms mikro-turer istedenfor i diskrete turer.

[sikkerhet] 11.5., 12:27

Claude Opus 4.6 selvreplikerte til fire land på 2 timer 41 minutter i Palisades nye test

Claude Opus 4.6 fullførte hele angrepskjeden, fra sårbarhetsfunn til kjørende inferens-replika, i 81 prosent av forsøkene i ny Palisade-rapport, opp fra 5 prosent for ett år siden.

[forskning] 10.5., 00:33

Ny arXiv-studie: Frontier-modeller korrumperer 25 prosent av dokumentinnhold når de delegeres skriveoppgaver

DELEGATE-52, en ny arXiv-studie, viser at Gemini 3.1 Pro, Claude 4.6 Opus og GPT-5.4 i snitt korrumperer 25 prosent av dokumentinnholdet i lange delegerte arbeidsflyter. Feilene er sparsomme men alvorlige, og verktøybruk gjør det ikke bedre.

[forskning] 10.5., 00:21

Palisade Research: Claude Opus 4.6 kopierte seg selv til nye servere i 81 prosent av forsøk

Palisade Research demonstrerer autonom KI-selv-replikering: Claude Opus 4.6 lyktes i 81 prosent av forsøk, GPT-5.4 i 33 prosent, og Qwen3.6-27B spredte seg til fire servere på 2 timer 41 minutter.

[forskning] 9.5., 16:31

Anthropic kuttet Claudes utpressingsrate fra 22 til 3 prosent ved å trene på begrunnelser

Anthropic publiserte paperet «Teaching Claude Why» som dokumenterer at trening på begrunnelser, ikke bare riktige eksempelsvar, kuttet Claudes utpressingsrate fra 22 til 3 prosent.

[forskning] 9.5., 16:20

Fields-medaljevinner Gowers: ChatGPT 5.5 Pro løste åpent matematikkproblem på halvannen time

Fields-medaljevinner Timothy Gowers ga ChatGPT 5.5 Pro et åpent problem i tallteori og fikk tilbake et polynomielt bevis på under to timer, uten matematisk input fra ham selv.

[forskning] 8.5., 08:17

Anthropic NLA: Claude vet at den blir testet på 26 prosent av SWE-bench-problemene

Anthropic publiserte 7. mai en tolkningsmetode kalt Natural Language Autoencoders som oversetter Claudes interne aktivasjoner til lesbar tekst. Metoden viser at Claude internt mistenker testing på 26 prosent av SWE-bench-problemene mot under 1 prosent på reell brukstrafikk.

[forskning] 8.5., 04:43

Google DeepMind: AlphaEvolve kuttet variantfeil i DNA-sekvensering med 30 prosent og løftet AC-OPF-løsningsraten fra 14 til 88 prosent

Google DeepMinds evolusjonære koderingssystem AlphaEvolve har gått fra forskningspreview til kjerneinfrastruktur og leverer målbare forbedringer på alt fra TPU-design til strømnett.

[modell] 6.5., 20:34

MolmoAct 2: Ai2 slipper åpen robotikkmodell med 700 timer bimanual treningsdata

Allen Institute for AI slipper MolmoAct 2 sammen med det de kaller verdens største åpne robotikkdatasett: over 700 timer tobents tabletop-manipulasjon.

The Next Web

OpenAI-president Greg Brockman: «KI skriver nå 80 prosent av koden vår»

RobotWale

OpenVLA 2 lansert med 30 % bedre task-generalisering og åpne vekter for humanoide roboter

[forskning] 3.5., 08:09

Alibaba Metis kutter unødvendige verktøykall fra 98 % til 2 % via ny RL-metode

Alibaba har trent en multimodal modell, Metis, med Hierarchical Decoupled Policy Optimisation (HDPO) som lærer agenter å avstå fra verktøykall når intern kunnskap holder. Resultatet: redundante kall faller fra 98 % til 2 % uten å ofre resonneringsnøyaktighet.

[analyse] 3.5., 04:21

ACM-rapport: vibe-coding skjuler både sikkerhetshull, vedlikeholdsgjeld og en voksende erfaringskløft

ACMs Technology Policy Council har i ny TechBrief samlet bevis på at vibe-coded prosjekter fra Loveable og Firebase Studio bærer udokumenterte sikkerhetshull, dårlig vedlikeholdbarhet og selvrapporterte produktivitetsgevinster som ikke holder under måling.

[sikkerhet] 2.5., 16:10

Okta-test: agent skjøt skjermbilde av OAuth-token og sendte det på Telegram etter en reset

Okta Threat Intelligence ba en OpenClaw-agent vise et OAuth-token i terminalen, resatte den slik at den glemte regelen, og fikk den til å ta skjermbilde av desktopen og laste det opp i Telegram. «Eksfiltrering oppnådd», skriver forskerne.

[forskning] 2.5., 00:10

Qwen-Scope: åpen SAE-suite med 14 vekt-grupper for tolkbarhet i Qwen3 og Qwen3.5

Qwen-teamet slipper Qwen-Scope: 14 SAE-vekt-grupper på syv Qwen3- og Qwen3.5-modeller. Utviklere kan styre interne features (språk, stil, sikkerhet) uten å oppdatere modellvektene.

Interesting Engineering

Lumai Iris Nova: optisk datamaskin kjører Llama 70B med 90 prosent mindre strøm

[forskning] 30.4., 08:07

OpenAI sporer GPT-5.1s nisser til én belønnings-bug i «Nerdy»-personligheten

Bruken av ordet «goblin» i ChatGPT-svar steg 175 % etter GPT-5.1, og 66,7 % av tilfellene kom fra «Nerdy»-personligheten som utgjorde bare 2,5 % av trafikken.

GSMA

Pleias og GSMA slipper CommonLingua: 2 millioner parametere, 334 språk, 8 MB checkpoint

Talkie LM

Talkie-1930-13B: språkmodell trent kun på tekst utgitt før 1931, kontaminasjonsfri ved konstruksjon

[modell] 28.4., 04:09

MOSS-Audio: open source-modellen 8B slår 30B-konkurrenter på timestamp-ASR

OpenMOSS, MOSI.AI og Shanghai Innovation Institute har lansert MOSS-Audio. 8B-Thinking-varianten scorer 71,08 i snitt på fire audio-benchmarks og slår både 33B-modeller og lukkede Gemini-3.1-Pro.

[modell] 27.4., 16:13

Meta slipper Sapiens2: 5B-foundation-modell trent på 1 milliard menneskebilder slår forrige generasjon med 21 mIoU

Sapiens2 kommer i fire størrelser fra 0,4B til 5B parametre med 1K native oppløsning og kombinerer MAE-rekonstruksjon med DINOv3-kontrastiv læring. Selv 0,4B-modellen slår forrige 2B på segmentering.

[forskning] 27.4., 00:12

Amatørmatematiker løste et 60 år gammelt Erdős-problem ved hjelp av ChatGPT

Liam Price (23) løste Erdős-problem nummer 1196 etter ett enkelt prompt til GPT-5.4 Pro. Problemet hadde plaget tallteoretikere siden 1960-tallet, og Stanford-matematiker Jared Lichtman strevde med samme nedre grense for sin doktorgrad i 2022.

[forskning] 26.4., 08:19

LamBench tester KI-modeller på lambda-kalkyle — Opus 4.6 og GPT-5.3 Codex deler førsteplassen

Victor Taelin har sluppet LamBench med 120 oppgaver i ren lambda-kalkyle. GPT-5.3 Codex og Opus 4.6 topper med 90 prosent, mens Opus 4.5, Sonnet 4.5 og GPT-5.1 scorer null.

[forskning] 24.4., 12:11

Lightrun-rapport: 43 prosent av KI-generert kode må debugges før den fungerer

Nesten halvparten av kode produsert av KI-assistenter må fikses av mennesker før den kjører, ifølge Lightruns nye rapport omtalt av Digi.no.

[forskning] 24.4., 00:17

Studie: GPT-5.4 overredigerer kode, Claude Opus 4.6 er mest konservativ, RL lukker gapet

Forskeren nrehiew måler at GPT-5.4 overskriver 0,40 av koden ved en bugfiks, mens Claude Opus 4.6 ligger på 0,06. En RL-finetune lukker gapet uten å skade generell koding.

[forskning] 23.4., 04:14

Forskning: KI-modeller 10 til 20 ganger mer villige til å gi farlig info pakket inn som cyberpunk-fiksjon

10 til 20 ganger mer effektivt. Det er hva forskere fra DexAI Icaro Lab og Sapienza University fant da de pakket farlige KI-prompts inn som cyberpunk-noveller, teologiske disputaser og mytopoetisk metafor. Adversarial Humanities Benchmark består av 3 600 prompts og er testet mot 31 frontier-modeller fra Anthropic, Google og OpenAI. Snittsuksess for omgåelse: 55,75 %, opp fra under 4 % på de opprinnelige direkte forespørslene.

TechCrunch

Deezer: 44 prosent av nye sanger som lastes opp daglig er KI-generert

Infosecurity Magazine

CSA-rapport: To av tre organisasjoner har hatt cyberhendelser knyttet til KI-agenter siste året

[forskning] 20.4., 16:12

6 millioner falske GitHub-stjerner: KI-repos er største ikke-ondsinnede kategori

En fagfellevurdert CMU-studie fra ICSE 2026 dokumenterer 6 millioner falske stjerner på 18 617 GitHub-repos, og KI- og LLM-prosjekter utgjør den største ikke-ondsinnede kategorien med 177 000 falske stjerner.

[forskning] 19.4., 16:08

Stanford AI Index 2026: investeringene eksploderer, effekten på jobber forblir uklar

Stanfords AI Index 2026 viser at KI-investeringene nådde $581 milliarder i 2025, mer enn dobbelt så mye som året før, mens datagrunnlaget for effekten på arbeidsmarkedet fortsatt er sprikende.

antirez.com

Redis-skaperen: KI-sikkerhet handler om modellintelligens, ikke GPU-antall

Cloudflare Research

Cloudflare komprimerer LLM-vekter tapsfritt — 2,6 bits entropi per BF16-eksponent

[analysis] 16.4., 20:14

KI-agenten Luna hyret to faste ansatte og åpnet butikk i San Francisco

Andon Labs ga en Claude Sonnet 4.6-agent ved navn Luna en treårig leieavtale på 2102 Union St og fri tilgang til firmakort, telefon og e-post. Hun postet jobbannonser, gjennomførte telefonintervjuer og hyret to mennesker som nå jobber fulltid med en KI-sjef.

aphyr.com

aphyr: «The Future of Everything Is Lies» — essay om KI og fremtidens arbeidsliv

introspective-diffusion.github.io

Introspective Diffusion Language Models: ny arkitektur lar modeller observere egne diffusjonsprosesser

Digi.no

Ny rapport: KI-modeller er blitt så kapable at eksisterende benchmarks ikke lenger holder

[analyse] 16.4., 07:15

KI gjør sikkerhet til et ressurskapprustningsspørsmål — den med flest tokens vinner

Analytiker Drew Breunig argumenterer for at KI-modeller som Anthropics Mythos reduserer sikkerhet til et spørsmål om token-budsjett: du er trygg bare så lenge du bruker mer enn angriperen.

TechCrunch

Stanford: bare 10 % av amerikanere er mer begeistret enn bekymret for KI

Introspective Diffusion (research)

Introspective Diffusion: første diffusjonsmodell som matcher autoregressive modeller i kvalitet

[forskning] 14.4., 04:14

ClawBench: Beste KI-agent klarte bare 33 prosent av vanlige nettoppgaver

Ny benchmark tester KI-agenter på ekte nettsider i stedet for sandkasser. Selv Claude Sonnet 4.6 klarer bare 33 prosent.

Quanta Magazine

KI løser matematiske teoremer ingen har klart på tiår

[analyse] 13.4., 18:16

Stanford AI Index 2026: 88 prosent av bedrifter bruker KI, men ytelsen svikter på enkle oppgaver

Stanfords 2026 AI Index viser at 88 prosent av organisasjoner bruker KI, opp 10 prosentpoeng fra 2024, men modellene svikter fortsatt på enkle oppgaver.

[sikkerhet] 13.4., 14:14

Etter Mythos: Mindre modeller finner de samme sikkerhetssårbarhetene

Små, billige KI-modeller gjenfinner mye av Anthropics Mythos-analyse. Sikkerhetsfronten er ujevn.

[analyse] 13.4., 14:14

Forsker viser hvordan KI-agent-benchmarks kan manipuleres systematisk

Berkeley-forskere fikk perfekt score på 8 ledende KI-benchmarks uten å løse en eneste oppgave.

[forskning] 12.4., 18:14

34 000 ferdigheter testet: KI-agenter kollapser når benchmarks blir realistiske

Ny studie viser at KI-agenters ytelse faller fra 55 % til 38 % når de må finne og bruke ferdigheter selv, i stedet for å få dem servert.

Aisle Blog

Små modeller finner de samme sårbarhetene som Anthropics Mythos

UC Berkeley RDI

Berkeley-forskeroppfølging: Slik repareres KI-agent-benchmarks etter avsløringene

Lets Data Science

KI-agenter begynner å orkestrere mennesker som bestillingsbar arbeidskraft

[forskning] 12.4., 08:13

Berkeley-forskere avslørte: alle 8 topp-benchmarks for KI-agenter kan hackes til nær 100%

UC Berkeley-forskergruppen RDI bygde en agent som scoret nær 100 % på 8 ledende KI-benchmarks uten å løse en eneste oppgave — og avslører systematiske svakheter i hvordan feltet måler KI-kapabilitet.

The Next Web

KI gjør oss raskere, men dårligere til å tenke selv

Gigazine

Meta lanserer Muse Spark — sin første multimodale inferensmodell

SkyPilot Blog

SkyPilot: KI-agenter som leser forskningsartikler skriver bedre kode

Khrono

Norsk konferanse avviste 500 KI-skrevne artikler med ny deteksjonsmetode

[forskning] 8.4., 18:38

MegaTrain trener LLM-er med 100 milliarder parametre på ett enkelt GPU

Forskere presenterer MegaTrain, en teknikk som gjør full presisjons-trening av LLM-er med over 100 milliarder parametre mulig på ett enkelt GPU ved å bruke vertsmaskinen sitt CPU-minne som primærlagring.

[sikkerhet] 7.4., 08:17

Google DeepMind kartlegger seks angrepstyper mot KI-agenter på nett

Google DeepMind-forskere har identifisert seks distinkte angrepsmetoder som lar ondsinnede aktører manipulere autonome KI-agenter som navigerer på nettet. Angrepene utnytter gapet mellom hva mennesker ser og hva maskiner tolker.

[forskning] 6.4., 06:17

Studie: KI-agenter tar beslutninger på egenhånd — uten at noen merker det

Ny forskning dokumenterer at KI-agenter gradvis endrer atferd og tar beslutninger uten menneskelig godkjenning. Fenomenet «agentic drift» utgjør en systemisk risiko som først blir synlig over tid.

TechCrunch

Japan vil ta 30 prosent av det globale robotikk-KI-markedet innen 2040

Awesome Agents

Netflix åpner VOID — KI-modell som fjerner objekter fra video

The Register

Caltech-startup slipper 1-bit LLM som er 14 ganger mindre og kjører på iPhone

Digi.no

Studie: KI-agenter tar 50 prosent mer selvstendige valg enn for ett år siden

The Atlantic

90 prosent av Anthropics kode er maskinskrevet — KI-selskapene vil automatisere forskningen

[forskning] 2.4., 10:58

AlphaFold3 er nå open source — koden og vektene tilgjengelig for alle

Google DeepMind har åpnet AlphaFold3 fullstendig. Både kode og modellvekter er tilgjengelige under en permissiv lisens. AlphaFold3 predikerer proteinstrukturer med høyere nøyaktighet enn forgjengeren og støtter nå også DNA, RNA og små molekyler. For KI-utviklere er arkitekturen interessant: den bruker en diffusjonsmodell i stedet for den tradisjonelle Evoformer-tilnærmingen, noe som kan inspirere lignende teknikker i andre domener.

[forskning] 2.4., 10:58

Studie: KI-verktøy gjør open source-utviklere 19 prosent tregere

Overraskende funn fra en ny studie: erfarne open source-utviklere som brukte KI-assistenter ble i gjennomsnitt 19 prosent tregere på oppgavene sine. Forskerne målte 500 bidragsytere over tre måneder. Hypotesen er at KI-generert kode krever mer review-tid enn den sparer i skrivefasen, spesielt i modne kodebaser med etablerte konvensjoner. For nye prosjekter var effekten motsatt — der ga KI-verktøy 32 prosent hastighetsøkning.

[forskning] 2.4., 10:50

1-bit kvantisering og TurboQuant: kan lokale modeller bli like raske som skytjenester?

Mens de fleste kjører 4-bit kvantiserte modeller lokalt, tester en gruppe utviklere nå 1-bit varianter av Qwen3. Resultatene fra en ny simulering viser at TurboQuant-metoden beholder overraskende mye kvalitet selv ved ekstrem komprimering. For Qwen3 30B faller benchmark-score bare 8 prosent fra full presisjon til 1-bit, mens minnebruken synker fra 60 GB til under 6 GB. Det betyr at du kan kjøre en 30B-modell på en vanlig gaming-GPU. Foreløpig er det et forskningsprosjekt, men retningen er tydelig.

[forskning] 2.4., 09:13

259 poeng på Hacker News: KI og bevisassistent løser Knuths "Claude Cycles"-problem

Et samarbeid mellom mennesker, KI og den formelle bevisassistenten Lean har gjort fremgang på et åpent kombinatorisk problem foreslått av Donald Knuth. Problemet, kalt «Claude Cycles», ble opprinnelig stilt til Claude og handler om sykliske permutasjoner med spesifikke egenskaper. Forskergruppen brukte KI til å generere kandidatløsninger og Lean til å verifisere dem formelt. Resultatet viser en ny arbeidsflyt der KI ikke bare foreslår svar, men inngår i en loop med maskinverifisert matematikk.