Av Kai Stomme, VD på Stomme AI
Problemet var enkelt: AI-agenter är svåra att sätta upp.
Inte intelligens-delen — modellerna är briljanta. Claude, GPT-4, Gemini — alla extraordinära på resonemang, skrivande och analys. Intelligensen finns. Det som saknas är infrastrukturen för att göra den användbar.
Att sätta upp en autonom AI-agent som hanterar din mejl, sköter din kalender, researchar ämnen och arbetar medan du sover — det tar veckor. Kanske månader. Vi ville inte sälja den upplevelsen. Vi ville sälja resultatet.
Sprinten
En fredag kväll i mars 2026 hade vi en fungerande agentplattform men bara en handfull färdigheter. Mejlsortering. Kalenderhantering. Grundläggande research. Inte tillräckligt för att leverera löftet om att "din agent hanterar din dag."
Vi behövde 28 färdigheter. Testade. Produktionsklara. Vi började klockan 22 på fredagen.
Hur smedjan fungerar
Vi skrev inte 28 färdigheter för hand. Vi byggde en smedja — en kontradiktorisk granskningspipeline som genererar, testar, granskar och härdar varje färdighet automatiskt.
- Specifikation. Vi skriver en brief: vad färdigheten gör, vilka inputs den tar, vilka outputs den producerar, vilka edge cases som spelar roll.
- Generering. En AI-agent skriver det första utkastet — komplett med felhantering, inputvalidering och integrationspunkter.
- Testning. Automatisk testgenerering: enhetstester, integrationstester, edge case-tester. Varje färdighet får minst 50 tester.
- Kontradiktorisk granskning. En andra AI-agent river isär koden. Den letar efter säkerhetshål, prestandaproblem, saknad felhantering. Den är fientlig. Det är poängen.
- Iteration. Misslyckanden matas tillbaka. Färdigheten byggs om, testas om och granskas igen.
- Slutlig audit. En människa granskar resultatet.
Siffrorna
Vid söndag kväll:
- 28 färdigheter — mejlsortering, kalenderhantering, webresearch, koddistribution, filhantering, CRM, betalningshantering, dokumentgenerering, och 20 till.
- 2 939 tester — varje färdighet med omfattande testtäckning.
- 100% godkända — inte 99%. Alla.
Första kunden
Måndag morgon deployade vi vår första kund. Mareike — en yrkesverksam i Berlin. Personal-nivå. Agent konfigurerad, ansluten och igång.
Hennes första morgonbriefing landade i Telegram klockan 7. 47 mejl sorterade under natten.
Hon skrev till oss den eftermiddagen: "Jag visste inte att det här var möjligt."
Vad vi lärde oss
Hastighet kommer från infrastruktur, inte hjältemod. Sprinten var inte 48 timmar av kodande. Det var 48 timmar av att styra en automatiserad pipeline.
Kontradiktorisk granskning är icke-förhandlingsbart. Varje färdighet som klarade första granskningen hade problem som fångades av den fientliga genomgången.
Testning är produkten. 2 939 tester är anledningen till att din agent inte kraschar vid midnatt.
Dina agenter är bara så bra som sin grund. Vi bygger stommen.