KI-Agenten werden in Unternehmen zunehmend für komplexe Aufgaben eingesetzt, von Kundenservice bis Softwareentwicklung. Damit autonome Systeme nicht unkontrolliert handeln, entsteht eine neue Steuerungsebene, international als Agent Harness bezeichnet. Diese Kontrollschicht definiert Regeln, überwacht Werkzeuge, prüft API-Nutzung und begrenzt Kosten sowie Fehlverhalten. Risiken wie Kontextverlust, Endlosschleifen oder halluzinierte Werkzeugaufrufe zeigen, dass Modelle allein nicht ausreichen. Besonders bei langlebigen Prozessen und abteilungsübergreifenden Aufgaben benötigen Agenten gemeinsamen Kontext, klare Prioritäten und definierte Verantwortlichkeiten, damit lokale Optimierungen nicht zu Chaos im Gesamtsystem führen.
Kaum ein Unternehmen kann es sich noch leisten, auf KI-Anwendungen zu verzichten. Ob es die gängigen Modelle von Google, OpenAI und Anthropic sind oder Spezialanwendungen, die KI eingebaut haben: Kaum eine Technologie ist in so kurzer Zeit so schnell etabliert worden. Aber mit dem Erfolg kommen auch neue Herausforderungen: Wie wird die KI gesteuert, welchen Rahmen gibt es für sie, was dürfen Agenten und was nicht?
Dafür braucht es eine neue Ebene in der KI-Umgebung, international wird dafür der Begriff Agent Harness, also Agentengeschirr, verwendet. Wer jetzt das Bild eines Hundes vor sich hat, der ein Geschirr trägt oder eines Bergsteigers mit Sicherheitsausrüstung, liegt schon richtig. Denn tatsächlich sind diese Geschirre dafür da, die KI-Agenten zu führen, zu leiten und sie auch im Zaum zu halten. Während die KI-Modelle für das «Was» und «Warum» zuständig sind, gibt die Harness-Ebene das «Wie» und «Wo» vor.
Diese Ebene ist dafür verantwortlich, die notwendigen Werkzeuge zu steuern, die für die Agenten notwendig sind, externe Verbindungen zu kontrollieren und den Zustand des Systems zu überwachen. Wo von der KI Logik und eigenständige Problemlösungen gefordert werden, muss die Kontrollebene die Regeln vorgeben. Diese sind festgelegt und nicht verhandelbar.
Die Gefahren von selbstständigen Agenten
Der Einsatz von Agenten für einfache Chats ist noch unkompliziert. Wenn es aber um eigenständige Agenten geht, wird die Umgebung komplexer. Ihre Prozesse dauern länger, bisweilen solange, bis sie wieder gestoppt werden. Ohne einen passenden Rahmen kann das in die falsche Richtung laufen, aus mehreren Gründen:
- Kontextverlust (Context Drifting): Wenn ein Agent mehr Informationen verarbeitet, können die wichtigsten Details im Rauschen der vorherigen Schritte verloren gehen.
- Endlosschleifen (Infinite Loops): Ein Agent kann in der Wiederholung derselben erfolglosen Aktion stecken bleiben, da ihm die «Erinnerung» fehlt, um zu erkennen, dass er diesen Weg bereits versucht hat.
- Halluzinierte Werkzeugnutzung (Hallucinated Tool Usage): Ohne strenge Validierung könnte ein Agent versuchen, eine Funktion mit den falschen Parametern aufzurufen oder ein Werkzeug zu erfinden, das in seiner Bibliothek nicht existiert.
- Unkontrollierter Ressourcenverbrauch (Uncontrolled Resource Consumption): Ein nicht verwalteter Agent könnte eine teure API wiederholt aufrufen, was zu explodierenden Kosten führt, ohne die Aufgabe abzuschließen.
Es braucht also ein entsprechendes Regelwerk, das die API-Nutzung prüft, die Qualität der KI-Antworten und Fehlermeldungen sofort weitergibt. Gerade bei Kontext ist das wichtig: Viele KI-Modelle kämpfen immer noch mit dem Problem des Vergessens bei längeren Konversationen oder Tasks. Im Kundenservice ist das aber wichtig, gerade bei schwierigen Fällen, die sich über Tage hinziehen können.
Erste solche Geschirre benutzt Claude Code von Anthropic, um einen Rahmen fürs eigene Codieren zu geben. OpenClaw, das Agenten mit sich reden lässt, kann ebenfalls als ein solches Geschirr gesehen werden, wenn auch rudimentär.
Geschirre für große Unternehmen zu definieren ist eine große Herausforderung, schreibt Salesforce in seinem Blog. «Ein Unternehmensagent muss mehr erfassen als nur die Wünsche eines einzelnen Mitarbeiters. Er muss verstehen, was die Organisation gemeinsam beschlossen hat: die gemeinsamen Daten und den Arbeitsverlauf, die den Handlungen Bedeutung verleihen, sowie die Richtlinien und Abwägungen, die darüber entscheiden, ob der Agent überhaupt handlungsberechtigt ist», heißt es da.
Organisationen arbeiten mit konkurrierenden Prioritäten und fragmentierten Daten. Viele Entscheidungen bedürfen bislang menschlicher Autorität, der Erfahrung und auch eines Konsenses.
Die Herausforderungen langlebiger Agenten
Die meisten Systeme, die heute im Einsatz sind, wurden für Umgebungen entwickelt, in denen Aufgaben klar abgegrenzt sind und ein eindeutiges Ziel haben. Programmieren ist das naheliegendste Beispiel. Dazu kommen Reisebuchungen, die Erfassung und Abwicklung von Spesenberichten sowie die Bearbeitung von Kundenanfragen über verschiedene Sprachen und Systeme hinweg. In all diesen Fällen kann ein Agent eine Aufgabe vollständig übernehmen – von Anfang bis Ende. Das Ergebnis kann überprüft werden.
Aber komplizierte Kundenanfragen, das Aushandeln von Verträgen, die Produktentwicklung oder die Personalverwaltung sind nicht so einfach zu automatisieren. Hier scheitern KI-Modelle noch immer regelmäßig. «Ohne klar definierte Prioritäten und festgelegte Verantwortungsstrukturen kann ein Agent abteilungsübergreifend agieren, Übergaben auslösen und ein Dutzend Systeme berühren – dabei jedoch mehr Arbeit verursachen, als er tatsächlich erledigt. Ein Agent ohne ausreichend robustes Steuerungs- und Kontrollsystem optimiert möglicherweise lokal, schafft aber im Gesamtsystem Chaos», warnt Salesforce.
OpenClaw arbeitet mit individuellen Konten. Unternehmensweite Geschirre müssen aber komplexer sein.
Salesforce sieht zwei wichtige Voraussetzungen.
- Das Erste ist gemeinsamer Kontext: die Daten, Aufzeichnungen und Arbeitsverläufe, die erforderlich sind, um innerhalb einer bestimmten Organisation überhaupt sinnvoll handeln zu können.
- Das Zweite ist kollektive Zielausrichtung: ein klares Verständnis der Prioritäten und Hierarchien der Organisation, damit der Agent nicht nur weiß, was zu tun ist, sondern auch, ob er die Befugnis dazu hat. Ohne gemeinsamen Kontext handelt der Agent auf Grundlage unvollständiger Informationen. Ohne kollektive Zielausrichtung fehlt ihm die Grundlage, um zu entscheiden, wie bei konkurrierenden legitimen Zielen priorisiert werden soll.
Anthropic hat bei Claude selbst erfahren, dass auch die KI-Rahmen regelmäßig angepasst werden müssen: «An einem Punkt haben wir festgestellt, dass Claude Sonnet 4.5 Aufgaben vorzeitig beendete, sobald es erkannte, dass sich die Kontextgrenze näherte – ein Verhalten, das manchmal als ‹Kontextangst› bezeichnet wird. Wir behoben dies, indem wir dem Test-Framework Kontext-Resets hinzufügten. Als wir dasselbe Framework jedoch bei Claude Opus 4.5 einsetzten, stellten wir fest, dass dieses Verhalten nicht mehr auftrat. Die Resets waren zu Ballast geworden», heißt es im Anthropic-Blog.
Agenten-Geschirre dürften die neue (oder eine weitere) Compliance-Abteilung in Unternehmen werden. Hier wird zumindest am Anfang viel menschlicher Input notwendig sein. Gerade im Kundendienst müssen die Agentenüberwacher lernen, warum manchmal Regen eben nicht gelten, wo Fingerspitzengefühl notwendig ist, wann KI-Agenten Anrufer zu Menschen weiterreichen müssen und welche Ausnahmen es gibt. Das wiederum kann ein neues Aufgabengebiet für Mitarbeiter im Kundenservice werden, die bislang am Telefon gearbeitet haben und durch KI-Agenten ersetzt wurden.
Thomas Wanhoff
Thomas Wanhoff, Jahrgang 1966, ist ein deutscher Journalist und Autor. Er arbeitete bei Zeitungen wie der “Frankfurter Neuen Presse”, war Produktentwickler bei der “Welt” und schreibt für die Nachrichtenplattform t-online. Außerdem betätigt er sich als freier Autor, mit Schwerpunkten auf CRM und Personalentwicklung. Wanhoff lebt seit 2007 in Südostasien.
