Hervorgehoben

Agent S3: Annäherung an die Computernutzung auf menschlicher Ebene mit breiter Skalierung

2. Oktober 2025

Seit der Einführung unseres ersten Frameworks, Agent S, vor einem Jahr mit 20,6% auf OSWorld haben wir die Grenzen der Agenten zur Computernutzung stetig weiterentwickelt. Agent S2 hat den Stand der Technik auf 48,8% angehoben, und jetzt Agent S3 steigert die Leistung auf 69,9%und nähert sich bei 72% der Leistung auf menschlichem Niveau.

Seit dieser Arbeit hat sich Agent S weiterhin rasant weiterentwickelt. In der jüngsten Ankündigung von Simular erreichte Agent S eine 72,6% Erfolgsquote auf OSWorld, übertrifft die Benchmarks 72,36% Ausgangswert beim Menschen.


Agent S3 baut direkt auf der Grundlage von Agent S2 auf. Durch die Vereinfachung des Frameworks und die Einführung eines nativen Codierungsagenten haben wir die Leistung auf OSWorld auf 62,6% verbessert und damit einen neuen Stand der Technik erreicht. Darüber hinaus führt Agent S3 den ersten ein breit skalierbares Framework für Agenten zur Computernutzung durch Verhalten Best-of-N (BBon). Anstatt sich auf einen einzelnen Agentenlauf zu verlassen, wählt BBon aus mehreren Rollouts aus und wählt das beste Ergebnis aus. Dieser Ansatz ermöglicht skalierbare Leistungssteigerungen, erhöht die Genauigkeit von 62,6 auf 69,9% und zeigt, wie agentische Frameworks einfach durch Skalierung mit vielfältigeren Agentenläufen verbessert werden können.

Neue Leistung auf dem neuesten Stand der Technik, die fast menschlichem Niveau entspricht

*Agent S3 verwendet das Verhalten Best-of-N

Auf OSWorld erreicht Agent S3 allein 62,6% in der 100-Schritte-Einstellung und übertrifft damit bereits den bisherigen Stand der Technik von 61,4% (Claude Sonnet 4,5). Durch das Hinzufügen von Behavior Best-of-N steigt die Leistung sogar noch weiter auf 69,9%, sodass Agenten, die Computer verwenden, nur noch wenige Punkte an die menschliche Genauigkeit herankommen (72%).

Zur Generalisierung in allen Umgebungen zeigt Agent S3 auch starke Verbesserungen, wenn Behavior Best-of-N angewendet wird. In WindowsAgentArena steigt die Genauigkeit von 50,2%, wenn nur Agent S3 verwendet wird, auf 56,6%, wenn aus mehreren Rollouts ausgewählt wird. Ähnlich verbessert sich bei AndroidWorld die Leistung von 68,1% auf 71,6%.

CUA-Engpass: Hohe Varianz bei Aufgaben mit langem Horizont

Verschiedene Agentenläufe mit hohem Varianzerfolg. BBon kann sich die Runs ansehen und den besten auswählen.

Computer Use Agents (CUAs) versprechen eine Zukunft, in der Software von selbst läuft, Tickets bucht, Formulare ausfüllt und in Apps navigiert, sodass Sie das nicht tun müssen. Aber gerade jetzt stolpern selbst die besten CUAs, wenn Aufgaben lang und chaotisch werden. Ein verirrter Klick, eine verspätete Antwort oder ein unerwartetes Pop-up können das Ganze aus dem Ruder bringen. Kleine Fehler häufen sich, und was eigentlich eine reibungslose Automatisierung hätte sein sollen, wird zu Frustration.

Das ist der zentrale Engpass: hohe Varianz. Derselbe Agent könnte eine Aufgabe einmal erledigen und sie dann beim nächsten Mal komplett vermasseln. Diese Inkonsistenz macht CUAs unberechenbar und zeigt, warum die Zuverlässigkeit komplexer, alltäglicher Arbeitsabläufe nach wie vor eine große Herausforderung darstellt.

Skalierungsagenten für die Computernutzung

Behavior Best-of-N: Skalierung durch mehrere Rollouts

Eine zentrale Herausforderung bei der Skalierung von Agenten besteht darin, dass einzelne Rollouts auch bei stärkeren Modellen inkonsistent bleiben. Agent S3 führt ein Verhalten Best-of-N (BBon), das dieses Problem löst, indem mehrere Rollouts parallel ausgeführt und der beste ausgewählt wird.

Unser Ansatz beginnt mit der Generierung von Fakten. RAW Agent Runs enthalten eine große Menge an schrittweisen Details, von denen viele irrelevant oder überflüssig sind. Durch die Generierung von Fakten wandeln wir diese lauten Läufe in präzise Aussagen darüber um, was bei jedem Schritt passiert ist. Dabei konzentrieren wir uns nur auf die Informationen, die für den Erfolg einer Aufgabe direkt von Bedeutung sind. Durch die Verknüpfung dieser Fakten entsteht eine Verhaltenserzählung, die eine klare Zusammenfassung dessen darstellt, was ein Agent bei jedem Schritt getan hat. Dadurch sind Agentenläufe besser interpretierbar und leichter vergleichbar.

Nachdem Verhaltensmuster eingeführt wurden, entscheiden wir anhand einer Richterauswahl, welcher Rollout die Aufgabe am besten erfüllt. Anstatt die Rohergebnisse zu vergleichen, begründet der Richter seine Entscheidung auf den Fakten, die in den einzelnen Verhaltenserzählungen enthalten sind. Indem der Richter diese Fakten aus allen Rollouts anführt, kann er vergleichend darüber nachdenken, welcher Versuch am effektivsten ist, und letztendlich den besten Versuch auswählen.

Verbesserung des Frameworks: Einfacheres Design, größere Flexibilität

Agent S2 verwendete eine hierarchische Manager-Worker-Konfiguration, was jedoch zu unnötigem Overhead führte. Agent S3 optimiert das Framework, indem diese Hierarchie aufgehoben und ein systemeigener Codierungsagent eingeführt wird, der Code generieren und ausführen kann. Dadurch werden die Lösungen vielfältiger und umfassen sowohl Code- als auch GUI-Aufgaben, und sie sind auch zuverlässiger. Zusammen steigerten diese Verbesserungen die Leistung um etwa 13%, sodass Agent S3 bei der Single-Agent-Leistung auf 62,6% stieg.

Skalierung mit Agentenläufen

Da die Anzahl der Agentenläufe auf OSWorld zunimmt, stellen wir fest, dass sich die Leistung allmählich verbessert. Bei 10 Durchläufen erreichten wir mit GPT-5 die höchste Leistung mit 69,9% und mit GPT-5 Mini mit 60,2%.

Menschliche Ausrichtung

Wir haben uns Aufgaben angesehen, bei denen unser Richter die Leistung verbessern könnte (44% von OsWorld) und festgestellt, dass der Richter bei 78,4% der Aufgaben die richtige Wahl getroffen hat. Bei der Überprüfung durch einen Menschen stellten wir fest, dass der Richter bei 92,8% der Aufgaben tatsächlich richtig lag, sodass die tatsächliche Leistung auf OSWorld näher an 76,3% lag. Dies deutet darauf hin, dass unser Richter gut auf menschliche Vorlieben abgestimmt ist, was ihn zu einem vielversprechenden Instrument für die Bewertung von CUA-Aufgaben macht.

Bereit, dein zu benutzen
Computer auf ähnliche Weise?

Teile und organisiere dein Gedächtnis und personalisiere deine Aufgaben.