Agent S2: Ein offener,
Modulares und skalierbares Framework für Computer Use Agents
Agenten zur Computernutzungsind autonome KI-Agenten, die Aufgaben für menschliche Benutzer beobachten, begründen und ausführen, indem sie direkt mit grafischen Benutzeroberflächen (GUI), einschließlich Desktops, Mobilgeräten, Browsern und verschiedener Software, interagieren. Sie fungieren auf die intuitivste Art und Weise als intelligente Vermittler zwischen menschlichen Benutzern und ihren digitalen Tools — mit Maus- und Tastatursteuerung, genau wie ein Mensch. Diese menschenähnliche Fähigkeit, Software zu navigieren und zu steuern, stellt einen grundlegenden Sprung in der KI dar und bereitet die Voraussetzungen für die nächste Ära des technologischen Fortschritts, der von autonomen Computerbenutzern angetrieben wird.
Wir freuen uns, heute unseren nächsten Sprung nach vorne bei Agenten für die Computernutzung ankündigen zu können: Agent S2, die zweite Generation unseres agentischen Frameworks. Aufbauend auf unseren ersten Erfolgen Agent S2 bietet noch mehr Leistung und Modularität, indem sowohl Frontier-Foundation-Modelle als auch spezialisierte Modelle genutzt werden. Agent S2 erzielt neue Ergebnisse auf dem neuesten Stand der Technik, skaliert gut mit mehr Schritten und vor allem ist es vollständig offen!
Modernste Leistung

Agent S2 weist eine überragende Computer- und Telefonnutzung auf, was sich in erheblichen Fortschritten bei den wichtigsten Benchmark-Herausforderungen zeigt.
Für den Computergebrauch liefert Agent S2 modernste Ergebnisse auf OSWorld sowohl bei 15-stufigen als auch bei 50-stufigen Evaluierungen (zwei praktischste Einstellungen für den realen Einsatz). Dies beweist, dass unser agentisches Framework präzisere Maßnahmen ergreift und den besten Plan für eine Aufgabe generiert, während es gleichzeitig in der Lage ist, sich selbst zu korrigieren und über einen langen Horizont hinweg zu verbessern. Insbesondere Agent S2 erreicht eine Genauigkeit von 34,5% bei einer Bewertung in 50 Schritten und übertrifft damit die vorherige SOTA (OpenAI CUA/Operator mit 32,6%). Dies zeigt, wie agentische Frameworks über ein einziges trainiertes Modell hinaus skalieren können.
Für die Verwendung mit Smartphones erreicht Agent S2 auf AndroidWorld eine Genauigkeit von 50% und übertrifft damit das vorherige SOTA (UI-TARS mit 46,8%). Dies zeigt die Verallgemeinerung agentischer Frameworks in verschiedenen visuellen Benutzeroberflächenumgebungen.

Im Anschluss an diesen Blogbeitrag haben wir bei der Vorbereitung unseres Papiers stärkere Ergebnisse auf AndroidWorld erzielt. Wir haben diese Tabelle aktualisiert, um die neueste Leistung widerzuspiegeln. Umfassende Informationen finden Sie in dem Dokument.
Warum modulare Frameworks wichtig sind: Inspiration aus dem menschlichen Gehirn
Das menschliche Gehirn ist ein bemerkenswertes Beispiel für modulares Design — ein Netzwerk spezialisierter Komponenten, die zusammenarbeiten. Verschiedene Regionen eignen sich hervorragend für unterschiedliche Aufgaben: Die linke Gehirnhälfte treibt das analytische Denken an, die rechte fördert die Kreativität, während motorische und sensorische Bereiche die körperliche Koordination steuern. Diese modulare Struktur, die für die Zusammenarbeit optimiert ist, inspiriert uns, wie wir das Design von KI-Agenten für den Computergebrauch angehen.

Wir bei Simular sind der Meinung, dass die effektivsten KI-Agenten einem ähnlichen Prinzip folgen sollten — modularen Frameworks, die verschiedene Modelle nahtlos orchestrieren, anstatt sich auf ein einziges monolithisches System zu verlassen. Unser erstes Agenten-Framework, Agent S, das am 11. Oktober 2024 lanciert wurde, verkörpert diese Vision. Mit erfahrungsgestützter hierarchischer Planung als Kern erzielte Agent S eine bessere Gesamtleistung als alle Modelle und Frameworks zu dieser Zeit.
Unsere neuesten Untersuchungen zeigen außerdem, dass ein gut durchdachtes modulares Framework selbst mit suboptimalen Einzelmodellen das beste Standalone-Modell übertreffen kann. Warum? Weil sich verschiedene Modelle in verschiedenen Bereichen auszeichnen und jedes seine eigenen Stärken und Schwächen besitzt. Ein robustes Framework optimiert die Orchestrierung unter diesen Modulen, um sicherzustellen, dass jedes Modell dort seinen Beitrag leistet, wo es am besten abschneidet, was zu überragenden Gesamtergebnissen führt. In der sich schnell entwickelnden Landschaft der Stiftungsmodelle Modularität ist der Schlüssel. Unser agentisches Framework der nächsten Generation, Agent S2, erreicht aufgrund seiner verbesserten Modularität und Flexibilität eine deutlich bessere Wahrnehmung, Planung und feinkörnige Steuerung.
Agent S2: So funktioniert es

Agent S2 wurde entwickelt, um komplexe digitale Aufgaben durch einen modularen und skalierbaren Ansatz zu bewältigen. Sein Framework betont vier wichtige Designprinzipien:
Proaktive hierarchische Planung
Agent S2 folgt einer natürlichen Aufgabenhierarchie und kombiniert spezialisierte Modelle für die Ausführung auf niedriger Ebene mit generalisierte Modelle für die Planung auf hoher Ebene. Aufgaben auf niedriger Ebene, wie die Auswahl von Benutzeroberflächenelementen oder die Hervorhebung von Text, erfordern ein hohes Maß an Präzision und fachspezifisches Fachwissen, wohingegen Aufgaben auf höherer Ebene eine umfassendere Anpassungsfähigkeit und strategische Kontrolle erfordern. Ein weiterer wichtiger Fortschritt von Agent S2 ist seine Verlagerung von der reaktiven zur proaktiven Planung. Anstatt eine Neuplanung erst nach Auftreten von Fehlern durchzuführen, was mehr Schritte zur Rückverfolgung erfordern würde und mehr Fehler anfallen könnten, aktualisiert Agent S2 seine Pläne nach jeder Unteraufgabe dynamisch. Dieser proaktive Ansatz verbessert die Anpassungsfähigkeit an Änderungen in Echtzeit, die Kontinuität von einer Unteraufgabe zur nächsten und die Optimalität zukünftiger Schritte.
Visuelle Grundlage für präzise Interaktion
Agent S2 ermöglicht eine hochpräzise Interaktion mit grafischen Benutzeroberflächen (GUIs) durch spezielle visuelle Erdungsmodelle. Im Gegensatz zu seinem Vorgänger, der für das Verständnis der Benutzeroberfläche auf Barrierefreiheitsbäume angewiesen war, Agent S2 arbeitet ausschließlich mit Roh-Screenshots als Eingabewodurch die Notwendigkeit strukturierter Barrierefreiheitsdaten entfällt. Indem Agent S2 das visuelle Verständnis an spezielle Modelle delegiert, kann er Benutzeroberflächenelemente wie Schaltflächen, Text, Bilder und Zellen präzise lokalisieren und bearbeiten. Dadurch wird eine feinkörnige Steuerung ermöglicht, die zuvor durch Einschränkungen der Barrierefreiheit eingeschränkt war.
Agent-Computer-Schnittstelle mit Expertenmodulen
Agent S2 verbessert sein Agent-Computer-Interface (ACI), indem er komplexe, einfache Aufgaben wie Textmarkierung auslagert spezialisierte Expertenmodule. Das reduziert die kognitive Belastung auf die Gründungsmodelle, sodass sie sich ausschließlich auf die Planung und strategische Entscheidungsfindung auf hoher Ebene konzentrieren können.
Agentischer Gedächtnismechanismus
Agent S2 verwendet einen Mechanismus des kontinuierlichen Lernens, der es ihm ermöglicht, sich mit der Erfahrung weiterzuentwickeln und die Effizienz im Laufe der Zeit zu verbessern. Die Erfahrung aus zuvor erledigten Aufgaben bleibt erhalten, sodass Agent S2 sich an frühere Aktionen erinnern und zukünftige Strategien auf der Grundlage historischer Erfolge und Misserfolge verfeinern kann. Diese Fähigkeit zum adaptiven Lernen ermöglicht es Agent S2, mit jeder Anwendung besser umzugehen, wodurch eine Grundlage für langfristige adaptive Intelligenz und personalisierte Automatisierung geschaffen wird.
Diese modulare Architektur macht auch die Skalierung und Anpassung mühelos. Neue Module, die auf Basis- oder Expertenmodellen basieren, können einfach integriert, entfernt oder ausgetauscht werden, sodass sich Agent S2 schnell und mühelos an neue Aufgabenbereiche anpassen kann.
Agent S2 in Aktion
Computernutzung
Laden Sie ein Bild von Google Drive herunter und komprimieren Sie es mit GIMP





























Bild in Dokument kopieren
Kopieren Sie ein Bild von GIMP in ein LibreOffice Writer-Dokument und exportieren Sie das Dokument dann
























Web-Erweiterung einrichten
Eine Weberweiterung einrichten




























Videountertitel entfernen
Entfernen Sie Untertitel aus einem Video und exportieren Sie das neue Video





















Gewinn berechnen
Berechnen Sie den Gewinn in einem LibreOffice Calc-Blatt
.webp)












Absatz durchstreichen
Den letzten Absatz in einem LibreOffice Writer-Dokument durchstreichen
.webp)


Agent S2 auf Ihrem Smartphone
Füllen Sie Formulare aus
Aufgabe: Gehen Sie zum neuen Kontaktbildschirm und geben Sie die folgenden Details ein: Vorname: Grace, Nachname: Taylor, Telefon: 799-802-1530, Telefonlabel:
Arbeit. Drücken Sie NICHT auf Speichern.










Organisieren Sie Dateien
Aufgabe: Verschieben Sie die Datei holiday_photos.jpg von Podcasts im Speicherbereich sdk_gphone_x86_64 in das DCIM innerhalb desselben sdk_gphone_x86_64-Speicherbereichs im Android-Dateisystem.

















Bereit, dein zu benutzen
Computer auf ähnliche Weise?
Teile und organisiere dein Gedächtnis und personalisiere deine Aufgaben.