Ähnliche KI

Technischer Test von Agent S2

Ein kompositorisches, generalistisches und spezialisiertes Framework für Computernutzer

1. April 2025

Die Entwicklung eines Agenten, der einen Computer wie ein Mensch bedienen kann, ist nach wie vor einer der wichtigsten Meilensteine auf dem Weg zur künstlichen allgemeinen Intelligenz. Von der Ausführung offener digitaler Aufgaben bis hin zur Navigation in unbekannten Anwendungen über GUIs — der Problembereich ist riesig, laut und hochdynamisch. Wir freuen uns, heute das technische Dokument für veröffentlichen zu können Agent S2, ein modulares Framework, das bei mehreren Benchmarks für die Computernutzung neue Maßstäbe auf dem neuesten Stand der Technik gesetzt hat.

Vor zwei Wochen haben wir Agent S2 als Open Source veröffentlicht. Jetzt, mit der Veröffentlichung des technischen Papiers, freuen wir uns, Ihnen einen tieferen Einblick in die Kernideen und die Architektur hinter dem System geben zu können. Eine anfängerfreundlichere Erklärung finden Sie in unserem vorherigen Blogbeitrag.

Lesen Sie mehr über Agent S2

Agent S2 im Überblick: Kompositorische Intelligenz

Agent S2 basiert auf einer einfachen, aber wirkungsvollen Idee: Anstatt sich auf ein einziges monolithisches Modell zu verlassen, um seine Interaktionen mit dem Bildschirm zu planen, zu handeln und zu begründen, teilen wir diese Verantwortlichkeiten zwischen generalistischen und spezialisierten Modulen auf. Dieser kompositorische Aufbau ahmt die Arbeitsweise von erfahrenen menschlichen Bedienern nach: hochrangige Planer, untergeordnete Ausführende und Schnittstellenspezialisten arbeiten Hand in Hand.

Agent S2 Technical Review
Die Agent-S2-Architektur kombiniert generalistische Planung und fachliche Grundlagen.

Hauptmerkmale von Agent S2:

  • Erdungsmischung (MoG): Nutzt eine Reihe von Erdungsexperten (visuell, textuell, strukturell), um GUI-Elemente präzise zu lokalisieren.


  • Proaktive hierarchische Planung (PHP): Verfeinert seine Pläne dynamisch auf der Grundlage von Rückmeldungen aus der Umgebung, anstatt einem festen Drehbuch zu folgen.

Benchmark-Ergebnisse: Plattformübergreifend auf dem neuesten Stand

Agent S2 setzt neue Maßstäbe im weit verbreiteten OSWorld-Benchmark:

Es zeigt auch eine starke Verallgemeinerung:

  • Windows Agent Arena: +52,8% Verbesserung gegenüber vorherigem SOTA

  • Android-Welt: +16,5% Verbesserung gegenüber vorherigem SOTA

Agent S2 Technical Review
Erfolgsquote auf OSWorld. Agent S2 übertrifft frühere Agenten deutlich.
Erfolgsquote auf WindowsAgentArena. Agent S2 übertrifft frühere Agenten deutlich.

Designinnovationen: MoG + PHP

Die meisten Agenten scheitern an schlechten Grundkenntnissen oder starrer Planung. Agent S2 befasst sich mit beiden:

  • Mischung aus Erdung: Leitet jede Interaktion an den am besten geeigneten Experten weiter. Verwenden Sie z. B. für Tabellenkalkulationen einen Experten für strukturelle Grundlagen; verwenden Sie für Schaltflächen visuelle Erdung. Durch die Entkopplung der Grundierung von der Planung wird das Gesamtproblem im Wesentlichen in zwei (relativ) einfachere Teilprobleme aufgeteilt, die besser zur Trainingsverteilung aktueller allgemeiner Denkmodelle und spezieller visueller Grundmodelle passen.

  • Proaktive Planung: Verfeinert kontinuierlich Unterziele und passt sie auf der Grundlage neuer Beobachtungen an. So wird nachgeahmt, wie ein Mensch einen Plan neu bewerten würde, wenn sich etwas ändert.

Agent S2 Technical Review
Agent S2 korrigiert sich selbst, indem er von der visuellen zur textuellen Erdung wechselt.

Skalierung und Fehlerbehebung

Mit längeren Horizonten skaliert Agent S2 besser als monolithische Modelle. Es passt sich im Handumdrehen an und korrigiert sich selbst, wenn seine anfänglichen Aktionen nicht den gewünschten Effekt erzielen.

Agent S2 Technical Review
Warum Agent S2 mit längeren Horizonten erfolgreich ist: adaptive Navigation, Interaktion und Korrektur.

Generalisierung über den Desktop hinaus: Android-Ergebnisse

Obwohl Agent S2 in erster Linie für Desktop-Agenten entwickelt wurde, lässt er sich gut auf mobile Umgebungen übertragen:

Agent S2 erreicht den neuesten Stand der Technik im AndroidWorld-Benchmark für die Smartphone-Nutzung.

Fazit: Modulare Agenten, echter Fortschritt

Agent S2 zeigt, dass Kompositionalität nicht nur eine elegante Designphilosophie ist — sie ist eine erfolgreiche Strategie für Bauagenten, die Computer wie Menschen robust einsetzen können. Wir glauben, dass uns diese Arbeit AGI einen Schritt näher bringt und neue Wege für die Forschung in den Bereichen Planung, Fundierung und multimodale Koordination eröffnet.

Schauen Sie sich das an Code und die Papier.

Bereit, dein zu benutzen
Computer auf ähnliche Weise?

Teile und organisiere dein Gedächtnis und personalisiere deine Aufgaben.