Revue technique de l'Agent S2
1er avril 2025
La création d'un agent capable d'utiliser un ordinateur comme un humain reste l'une des étapes les plus importantes sur la voie de l'intelligence artificielle générale. Qu'il s'agisse de l'exécution de tâches numériques ouvertes ou de la navigation dans des applications inconnues via des interfaces graphiques, l'espace de problèmes est vaste, bruyant et très dynamique. Aujourd'hui, nous sommes ravis de publier le document technique de Agent S2, un cadre modulaire qui a établi de nouvelles performances de pointe sur de nombreux critères d'utilisation des ordinateurs.
Il y a deux semaines, nous avons ouvert le code source de l'Agent S2. Aujourd'hui, avec la publication du document technique, nous sommes ravis de vous proposer un examen plus approfondi des idées fondamentales et de l'architecture qui sous-tendent le système. Pour une explication plus adaptée aux débutants, consultez notre article de blog précédent.
Présentation de l'agent S2 : intelligence compositionnelle
L'Agent S2 est conçu autour d'une idée simple mais puissante : au lieu de nous fier à un seul modèle monolithique pour planifier, agir et baser ses interactions avec l'écran, nous répartissons ces responsabilités entre des modules généralistes et spécialisés. Cette configuration de composition imite le fonctionnement des opérateurs humains experts : des planificateurs de haut niveau, des exécuteurs de bas niveau et des spécialistes des interfaces travaillant en tandem.

Principales caractéristiques de l'Agent S2 :
Mélange de mise à la terre (MoG) : Utilise une suite d'experts en matière de mise à la base (visuels, textuels, structurels) pour localiser avec précision les éléments de l'interface graphique.
Planification hiérarchique proactive (PHP) : Affine dynamiquement ses plans en fonction des commentaires de l'environnement, plutôt que de suivre un script fixe.
Résultats de référence : une technologie de pointe sur toutes les plateformes
L'Agent S2 établit une nouvelle norme par rapport à la référence largement utilisée OSWorld :

Il montre également une forte généralisation :
Windows Agent Arena : Amélioration de 52,8 % par rapport à la SOTA précédente
Monde Android : Amélioration de 16,5 % par rapport à la SOTA précédente

.webp)
Innovations en matière de conception : MoG + PHP
La plupart des agents échouent en raison d'une mauvaise base ou d'une planification rigide. L'agent S2 répond à la fois aux besoins suivants :
Mélange de mise à la terre : Achemine chaque interaction vers l'expert le mieux adapté. Par exemple, pour les feuilles de calcul, faites appel à un expert en mise à la base structurelle ; pour les boutons, utilisez la mise à la base visuelle. Dissocier l'ancrage de la planification permet essentiellement de factoriser le problème global en deux sous-problèmes (relativement) plus simples, qui correspondent mieux à la distribution d'apprentissage des modèles de raisonnement général actuels et des modèles d'ancrage visuel spécialisés.
Planification proactive : Affine continuellement les sous-objectifs et les ajuste en fonction de nouvelles observations, en imitant la façon dont un humain réévaluerait un plan en cas de changement.

Mise à l'échelle et restauration après erreur
Avec des horizons plus longs, l'Agent S2 évolue mieux que les modèles monolithiques. Il s'adapte à la volée et se corrige automatiquement lorsque ses actions initiales ne produisent pas l'effet souhaité.

Généraliser au-delà du bureau : résultats Android
Même si l'Agent S2 a été principalement conçu pour les agents de bureau, il s'applique parfaitement aux environnements mobiles :

Conclusion : des agents modulaires, de réels progrès
L'Agent S2 montre que la compositionnalité n'est pas simplement une philosophie de conception élégante, c'est une stratégie gagnante pour créer des agents capables d'utiliser les ordinateurs de manière robuste, comme les humains. Nous pensons que ce travail nous rapproche de l'AGI et ouvre de nouvelles orientations pour la recherche en matière de planification, d'ancrage et de coordination multimodale.
Prêt à utiliser votre
ordinateur d'une manière similaire ?
Partagez et organisez votre mémoire et personnalisez vos tâches.