Recherche

Agent S von Simular übertrifft Menschen im OSWorld Benchmark

Der KI-Agent erreicht 72,6% auf OSWorld und übertrifft damit den Referenzwert für Menschen von 72,36%

16. Dezember 2025

San Francisco, Kalifornien — Simular, das Unternehmen für autonome Computer, gab heute bekannt, dass sein Open-Agent-Framework Agent S einen 72,6% Erfolgsquote auf Betriebssystemwelt, der führende Maßstab für die Bewertung multimodaler Agenten, die echte Computeraufgaben ausführen.

Mit diesem Meilenstein liegt der Agent von Simular über dem des Benchmarks Leistung auf menschlichem Niveau von 72,36%, was einen großen Durchbruch in der Fähigkeit der KI darstellt, echte Computer mit menschenähnlicher Zuverlässigkeit zu bedienen.

Noch vor einem Jahr lag der Höchstwert auf OSWorld bei rund 20%. Kontinuierlicher Fortschritt hat die Leistung im gesamten Agentenbereich rasant verbessert. Der Agent S von Simular ist der erste, der die menschliche Schwelle überschreitet, was vor allem auf die Skalierungseffekte von zurückzuführen ist Verhalten Best-of-N (BBon), eine Methode, die die Leistung verbessert, indem mehrere Agenten verwendet und die besten unter ihnen ausgewählt werden.

„Der Bereich der Agenten zur Computernutzung entwickelt sich so schnell, dass selbst wir nicht damit gerechnet haben, dass dieser Durchbruch so bald kommen wird“, sagte Ang Li, CEO und Mitbegründer von Simular. „Bis vor Kurzem war nicht klar, ob KI einen Computer zuverlässig so nutzen kann, wie es Menschen tun. Das Überschreiten dieser Schwelle ist ein historischer Moment. Unser Fokus liegt nun darauf, diese Technologie allgemein zugänglich zu machen und reale Anwendungsfälle für echte Menschen auf echten Computern zu erschließen.“

Dieser Meilenstein folgt auf die jüngste Finanzierungsrunde von Simular in Höhe von 21,5 Millionen US-Dollar, die von Felicis unter Beteiligung von nVentures, Basis Set Ventures und anderen Unternehmen von Nvidia geleitet wurde. Simular ist auch eines von fünf Agentenunternehmen, die ausgewählt wurden, um das neue Produkt von Microsoft zu testen Windows 365 für Agenten, eine sichere, skalierbare Umgebung, die für KI-Automatisierung auf Unternehmensebene entwickelt wurde.

Im Dezember startete das Unternehmen Ähnlich 1.0, der erste wirklich Desktop-native KI-Agent für Verbraucher — ein Schritt in Richtung seiner Mission, Menschen vollständig von der Arbeit am Computer zu befreien.

Um mehr zu erfahren, lesen Sie das vollständige Forschungspapier TDie unzumutbare Effektivität von Skalierungsagenten für die Computernutzung: https://arxiv.org/abs/2510.02250

Autonome Computer zu bauen bedeutet nicht, Menschen zu ersetzen. Es bedeutet Zusammenarbeit.

Schauen Sie sich das Open Source Agent S Repository an