En vedette

Agent S3 : aborder l'utilisation des ordinateurs à l'échelle humaine à grande échelle

2 octobre 2025

Depuis le lancement de notre premier framework, Agent S, à 20,6 % sur OSWorld il y a tout juste un an, nous n'avons cessé de repousser les limites des agents informatiques. L'agent S2 a élevé l'état de l'art à 48,8 %, et maintenant L'agent S3 fait grimper les performances à 69,9 %, se rapprochant des performances humaines à 72 %.

Depuis ces travaux, l'agent S n'a cessé de progresser rapidement. Dans la dernière annonce de Simular, l'agent S a obtenu un Taux de réussite de 72,6 % sur OSWorld, dépassant la référence 72,36 % de référence chez l'humain.


L'Agent S3 s'appuie directement sur les bases de l'Agent S2. En simplifiant le framework et en introduisant un agent de codage natif, nous avons amélioré les performances à 62,6 % sur OSWorld, établissant ainsi un nouvel état de l'art. Au-delà de cela, l'Agent S3 présente le premier cadre à grande échelle pour les agents informatiques à travers Comportement Best-of-N (BBon). Au lieu de se fier à un seul agent, BBon choisit parmi plusieurs déploiements et sélectionne le meilleur résultat. Cette approche permet de réaliser des gains de performances évolutifs, en augmentant la précision de 62,6 % à 69,9 % et en montrant comment les frameworks agentiques peuvent s'améliorer simplement en s'adaptant à des exécutions d'agents plus diversifiées.

De nouvelles performances de pointe, proches du niveau humain

*Agent S3 utilisant Behavior Best-of-N

L'Agent S2 fait preuve d'une utilisation supérieure de l'ordinateur et du téléphone, comme en témoignent les avancées significatives réalisées pour relever les principaux défis en matière de référence.

À des fins de généralisation à tous les environnements, l'agent S3 présente également de fortes améliorations lors de l'application de Behavior Best-of-N. Sur WindowsAgentArena, la précision passe de 50,2 % en utilisant uniquement l'Agent S3 à 56,6 % en choisissant parmi plusieurs déploiements. De même, sur AndroidWorld, les performances s'améliorent de 68,1 % à 71,6 %.

Pourquoi les cadres modulaires sont importants : inspiration du cerveau humain

Différents agents s'exécutent avec un taux de variance élevé. bBon peut examiner les essais et choisir le meilleur.

Chez Simular, nous pensons que les agents d'IA les plus efficaces devraient suivre un principe similaire : des frameworks modulaires qui orchestrent de manière fluide divers modèles, plutôt que de s'appuyer sur un seul système monolithique. Notre cadre d'agents initial,

C'est le principal goulot d'étranglement : variance élevée. Le même agent peut réussir une tâche une fois, puis l'échouer complètement la fois suivante. Cette incohérence rend les CUA imprévisibles et montre pourquoi la fiabilité des flux de travail quotidiens complexes reste un tel défi.

Agent S2 : comment ça marche

Planification hiérarchique proactive

L'agent S2 suit une hiérarchie de tâches naturelle, combinant Comportement Best-of-N (BBon), qui résout ce problème en exécutant plusieurs déploiements en parallèle et en sélectionnant le meilleur.

Notre approche commence par la génération de faits. Les analyses des agents bruts contiennent une grande quantité de détails étape par étape, dont la plupart ne sont pas pertinents ou redondants. En générant des faits, nous convertissons ces séquences bruyantes en déclarations concises sur ce qui s'est passé à chaque étape, en nous concentrant uniquement sur les informations qui sont directement importantes pour la réussite de la tâche. La concaténation de ces faits produit un récit du comportement, qui est un résumé clair de ce que l'agent a fait à chaque étape, ce qui rend les activités des agents plus interprétables et plus faciles à comparer.

Une fois les récits comportementaux en place, nous sélectionnons les juges pour déterminer le déploiement le mieux adapté à la tâche. Au lieu de comparer les résultats bruts, le juge fonde sa décision sur les faits contenus dans chaque récit comportemental. En citant ces faits au fil des déploiements, le juge peut raisonner de manière comparative pour déterminer quelle tentative est la plus efficace et sélectionner finalement la meilleure solution.

Améliorer le cadre : conception simplifiée, flexibilité accrue

L'agent S2 a utilisé une configuration hiérarchique entre le gestionnaire et le travailleur, mais cela a entraîné des frais supplémentaires inutiles. L'agent S3 rationalise le framework en supprimant cette hiérarchie et en introduisant un agent de codage natif capable de générer et d'exécuter du code. Les solutions sont ainsi plus diversifiées, couvrant à la fois les tâches de code et d'interface graphique, tout en étant plus fiables. Ensemble, ces améliorations ont augmenté les performances d'environ 13 %, portant l'Agent S3 à 62,6 % pour les performances d'un seul agent.

Mise à l'échelle grâce aux exécutions d'agents

Au fur et à mesure que le nombre d'agents s'exécute sur OSWorld, nous constatons que les performances s'améliorent progressivement. En 10 courses, nous avons atteint les meilleures performances avec GPT-5 à 69,9 % et avec GPT-5 Mini à 60,2 %.

Alignement humain

Nous avons examiné les tâches dans lesquelles notre juge pouvait améliorer les performances (44 % d'OSWorld) et avons constaté que le juge avait fait le bon choix pour 78,4 % des tâches. Lorsque nous avons revérifié avec une évaluation humaine, nous avons constaté que le juge avait effectivement raison pour 92,8 % des tâches, ce qui rapproche les performances réelles sur OSWorld de 76,3 %. Cela suggère que notre juge correspond bien aux préférences humaines, ce qui en fait un outil prometteur pour évaluer les tâches CUA.

Prêt à utiliser votre
ordinateur d'une manière similaire ?

Partagez et organisez votre mémoire et personnalisez vos tâches.