PentAGI: open-source KI-agent for penetrasjonstesting — fire agenter, Kali i Docker, multi-LLM

Det tradisjonelle pentest-verktøysettet er sammensatt: mange spesialiserte verktøy, manuell koordinering og runbooks som brukes om og om igjen. PentAGI, et open-source-prosjekt fra VXControl, automatiserer hele flyten via et flere-agent-system. En orchestrator tar imot et mål og koordinerer tre spesialister: en researcher som samler info fra kjente sårbarhetskilder, en developer som planlegger angrepsstrategier, og en executor som kjører kommandoer i isolerte containere.

Arbeidet struktureres hierarkisk — flows, tasks, subtasks, actions — og alt skjer inne i sandboxede Docker-miljøer. Systemet velger image basert på oppgavetype: for sikkerhetsarbeid brukes en Kali Linux-image preloadet med mer enn 20 verktøy inkludert nmap, Metasploit og sqlmap. Hver agent-type har tre minnelag: langtids-vector storage, working context og episodic history, alle backet av PostgreSQL med pgvector for semantisk søk.

«PentAGI manages growing LLM context windows through a chain summarization algorithm that selectively compresses older conversation history.» — Help Net Security, 22. april 2026

LLM-valgfrihet er en del av designet. PentAGI tar credentials for OpenAI, Anthropic, Google Gemini, AWS Bedrock, Ollama, DeepSeek, OpenRouter og flere. Organisasjoner med air-gapped eller kostnadssensitive miljøer kan peke systemet mot en lokal Ollama. Bedrock-brukere får et hint om at default rate limits på nye kontoer er så restriktive at de bremser testing — be om quota increase før produksjon.

En valgfri Graphiti knowledge graph via Neo4j lagrer semantiske relasjoner mellom verktøy, mål, sårbarheter og teknikker på tvers av sesjoner. Deaktivert som default — og krever merkelig nok en OpenAI-nøkkel for entity extraction selv om andre LLM-leverandører håndterer hoved-agentene.

Deployment kjører gjennom Docker Compose med enten interaktiv installer eller manuell env-konfigurasjon. Minimum 2 vCPU, 4 GB RAM og 20 GB disk. For produksjon anbefales en to-node-arkitektur som isolerer worker-containere på en dedikert server, så potensielt utrygg kode-kjøring skilles fra hoved-control-planet. API-et eksponerer både REST og GraphQL med Bearer token-autentisering, så det kan kobles inn i CI/CD-pipelines.

Observability går via en valgfri stack med OpenTelemetry, Grafana, VictoriaMetrics, Jaeger og Loki. Langfuse står for LLM-spesifikk analytics med tracing av agent-beslutninger og modell-ytelse over tid.

>_ NØKKELTALL

Antall agent-typer: orchestrator + researcher, developer, executor

20+

Innebygde sikkerhetsverktøy i Kali-imaget (nmap, Metasploit, sqlmap m.fl.)

2 vCPU / 4 GB RAM / 20 GB disk

Minimum for å kjøre

Hva bør du gjøre?

Sett opp en isolert test-VM og kjør PentAGI mot et dedikert lab-miljø før du lar det nærme seg noe produksjon. Autonom utnyttelse av ekte systemer krever skriftlig tillatelse og nøye scope-definisjon.
Peker du det mot en lokal Ollama, sjekk at modellen er stor nok for planning-oppgavene. Small models kollapser på multi-step angrepsplaner, og researcher-agenten får trøbbel med vulnerability-kilder.
Bruker du Bedrock, be om quota increase før du starter. Default-limiter er dokumentert som for lave til ekte bruk.

Bakgrunn

Autonome KI-agenter for offensive sikkerhets-oppgaver har blitt et aktivt forskningsområde i 2025 og 2026. PentAGI føyer seg inn i en serie open-source-prosjekter der isolert sandboxing og multi-LLM-støtte brukes for å redusere både risiko og leverandørlock-in.