Von Kai Stomme, CEO bei Stomme AI
Das Problem war einfach: KI-Agenten sind schwer einzurichten.
Nicht die Intelligenz — die Modelle sind brillant. Claude, GPT-4, Gemini — alle außergewöhnlich in Argumentation, Schreiben und Analyse. Die Intelligenz existiert. Was fehlt, ist die Infrastruktur, die sie nützlich macht.
Wir wollten nicht die Erfahrung verkaufen, einen Agenten aufzusetzen. Wir wollten das Ergebnis verkaufen.
Der Sprint
An einem Freitagabend im März 2026 hatten wir eine funktionierende Plattform, aber nur eine Handvoll Skills. E-Mail-Sortierung. Kalenderverwaltung. Grundlegende Recherche. Nicht genug.
Wir brauchten 28 Skills. Getestet. Produktionsreif. Wir starteten um 22 Uhr.
Wie die Schmiede funktioniert
Wir schrieben nicht 28 Skills von Hand. Wir bauten eine Schmiede — eine adversarische Pipeline, die jeden Skill automatisch generiert, testet, überprüft und härtet.
- Spezifikation. Was der Skill tut, welche Eingaben, Ausgaben, Edge Cases.
- Generierung. Ein KI-Agent schreibt den ersten Entwurf — mit Fehlerbehandlung und Validierung.
- Tests. Automatische Testgenerierung: Unit-Tests, Integrationstests, Edge-Case-Tests. Minimum 50 Tests pro Skill.
- Adversarische Prüfung. Ein zweiter KI-Agent reißt den Code auseinander. Sicherheitslücken, Performance, fehlende Fehlerbehandlung. Feindlich. Das ist der Punkt.
- Iteration. Fehler fließen zurück. Neuaufbau, erneute Tests, erneute Prüfung.
- Finale Überprüfung. Ein Mensch prüft das Ergebnis.
Die Zahlen
Bis Sonntagabend:
- 28 Skills — E-Mail, Kalender, Web-Recherche, Code-Deployment, Dateiverwaltung, CRM, Zahlungsabwicklung und 20 mehr.
- 2.939 Tests — jeder Skill umfassend getestet.
- 100% bestanden — nicht 99%. Alle.
Die erste Kundin
Montagmorgen deployten wir unsere erste Kundin. Mareike — eine Fachkraft in Berlin. Personal-Tier. Agent konfiguriert, verbunden, laufend.
Ihr erstes Morgen-Briefing landete um 7 Uhr in Telegram. 47 E-Mails über Nacht sortiert.
Sie schrieb uns am Nachmittag: „Ich wusste nicht, dass das möglich ist."
Was wir gelernt haben
Geschwindigkeit kommt von Infrastruktur, nicht von Heldentum. Der Sprint war nicht 48 Stunden Coden. Es waren 48 Stunden, eine automatisierte Pipeline zu steuern.
Adversarische Prüfung ist nicht verhandelbar. Jeder Skill hatte Probleme, die erst der feindliche Durchgang fand.
Tests sind das Produkt. 2.939 Tests sind der Grund, warum dein Agent um 3 Uhr morgens nicht abstürzt.
Deine Agenten sind nur so gut wie ihr Fundament. Wir bauen die Stomme.