KI-Agenten sind offenbar nicht so gut, wie manche Anbieter versprechen – und wie viele Kunden denken. Salesforce hat mit seinem CRM «ArenaPro» laut einem Bericht von The Decoder herausgefunden, dass selbst Modelle wie Gemini 2.5 Pro nur eine Erfolgsquote von 58 Prozent erreichen. Bei längeren Konversationen fiel diese sogar auf bis zu 35 Prozent.
CRM ArenaPro testet, wie gut LLMs (Large Language Models) in der realen Welt funktionieren. Ein Schwerpunkt liegt auf den Bereichen Verkauf und Kundenservice. Salesforce testete neun LLMs ausgiebig und stellte fest, dass die meisten Modelle recht schnell Probleme bekommen, sobald es zu Folgefragen kommt. In 20 Fällen, in denen Gemini komplexe Fragen nicht ausreichend beantworten konnte, lag das daran, dass das Modell keine weiterführenden Rückfragen stellte. Modelle, die hingegen mehr Fragen stellten, schnitten besser ab.
Etwas besser sahen die Ergebnisse aus, wenn es um einfache Aufgaben wie die Weiterleitung von Kundenanfragen ging. Hier lag die Erfolgsquote bei 83 Prozent. Allerdings sank sie wieder, sobald weitere Aufgaben erforderlich waren oder erwartet wurde, dass das Modell falsche Konfigurationen erkennt und entsprechende Änderungen anfragt. Bereits im Mai hatten Microsoft und Salesforce festgestellt, dass die Qualität der Modelle mit zunehmender Länge der Gespräche nachlässt. In einer Studie mit unterschiedlichen Szenarien lag die Genauigkeit bei lediglich 39 Prozent.