Technischer Test von Agent S2
1. April 2025
Die Entwicklung eines Agenten, der einen Computer wie ein Mensch bedienen kann, ist nach wie vor einer der wichtigsten Meilensteine auf dem Weg zur künstlichen allgemeinen Intelligenz. Von der Ausführung offener digitaler Aufgaben bis hin zur Navigation in unbekannten Anwendungen über GUIs — der Problembereich ist riesig, laut und hochdynamisch. Wir freuen uns, heute das technische Dokument für veröffentlichen zu können Agent S2, ein modulares Framework, das bei mehreren Benchmarks für die Computernutzung neue Maßstäbe auf dem neuesten Stand der Technik gesetzt hat.
Vor zwei Wochen haben wir Agent S2 als Open Source veröffentlicht. Jetzt, mit der Veröffentlichung des technischen Papiers, freuen wir uns, Ihnen einen tieferen Einblick in die Kernideen und die Architektur hinter dem System geben zu können. Eine anfängerfreundlichere Erklärung finden Sie in unserem vorherigen Blogbeitrag.
Agent S2 im Überblick: Kompositorische Intelligenz
Agent S2 basiert auf einer einfachen, aber wirkungsvollen Idee: Anstatt sich auf ein einziges monolithisches Modell zu verlassen, um seine Interaktionen mit dem Bildschirm zu planen, zu handeln und zu begründen, teilen wir diese Verantwortlichkeiten zwischen generalistischen und spezialisierten Modulen auf. Dieser kompositorische Aufbau ahmt die Arbeitsweise von erfahrenen menschlichen Bedienern nach: hochrangige Planer, untergeordnete Ausführende und Schnittstellenspezialisten arbeiten Hand in Hand.

Hauptmerkmale von Agent S2:
Erdungsmischung (MoG): Nutzt eine Reihe von Erdungsexperten (visuell, textuell, strukturell), um GUI-Elemente präzise zu lokalisieren.
Proaktive hierarchische Planung (PHP): Verfeinert seine Pläne dynamisch auf der Grundlage von Rückmeldungen aus der Umgebung, anstatt einem festen Drehbuch zu folgen.
Benchmark-Ergebnisse: Plattformübergreifend auf dem neuesten Stand
Agent S2 setzt neue Maßstäbe im weit verbreiteten OSWorld-Benchmark:

Es zeigt auch eine starke Verallgemeinerung:
Windows Agent Arena: +52,8% Verbesserung gegenüber vorherigem SOTA
Android-Welt: +16,5% Verbesserung gegenüber vorherigem SOTA

.webp)
Designinnovationen: MoG + PHP
Die meisten Agenten scheitern an schlechten Grundkenntnissen oder starrer Planung. Agent S2 befasst sich mit beiden:
Mischung aus Erdung: Leitet jede Interaktion an den am besten geeigneten Experten weiter. Verwenden Sie z. B. für Tabellenkalkulationen einen Experten für strukturelle Grundlagen; verwenden Sie für Schaltflächen visuelle Erdung. Durch die Entkopplung der Grundierung von der Planung wird das Gesamtproblem im Wesentlichen in zwei (relativ) einfachere Teilprobleme aufgeteilt, die besser zur Trainingsverteilung aktueller allgemeiner Denkmodelle und spezieller visueller Grundmodelle passen.
Proaktive Planung: Verfeinert kontinuierlich Unterziele und passt sie auf der Grundlage neuer Beobachtungen an. So wird nachgeahmt, wie ein Mensch einen Plan neu bewerten würde, wenn sich etwas ändert.

Skalierung und Fehlerbehebung
Mit längeren Horizonten skaliert Agent S2 besser als monolithische Modelle. Es passt sich im Handumdrehen an und korrigiert sich selbst, wenn seine anfänglichen Aktionen nicht den gewünschten Effekt erzielen.

Generalisierung über den Desktop hinaus: Android-Ergebnisse
Obwohl Agent S2 in erster Linie für Desktop-Agenten entwickelt wurde, lässt er sich gut auf mobile Umgebungen übertragen:

Fazit: Modulare Agenten, echter Fortschritt
Agent S2 zeigt, dass Kompositionalität nicht nur eine elegante Designphilosophie ist — sie ist eine erfolgreiche Strategie für Bauagenten, die Computer wie Menschen robust einsetzen können. Wir glauben, dass uns diese Arbeit AGI einen Schritt näher bringt und neue Wege für die Forschung in den Bereichen Planung, Fundierung und multimodale Koordination eröffnet.
Bereit, dein zu benutzen
Computer auf ähnliche Weise?
Teile und organisiere dein Gedächtnis und personalisiere deine Aufgaben.