Nouveau

Agent S : un framework agentique ouvert qui utilise les ordinateurs comme un humain

27 février 2025

Hé ! Il y a quelques mois, j'ai donné une conférence à l'université de Princeton sur mes réflexions sur les agents et Simular. J'ai pensé que je devais rédiger un résumé et le transformer en article de blog.

Des performances de pointe

J'ai d'abord travaillé en tant que chercheuse scientifique chez Google DeepMind, où une partie essentielle de mon rôle consistait à collaborer avec différentes équipes de produits Google afin d'identifier les opportunités d'application de notre technologie d'IA de pointe. Cependant, un Googler m'a posé une question totalement indépendante qui a peut-être finalement motivé ma décision de quitter DeepMind et de lancer Simular.

L'agent S est un nouvelle agence
cadre
conçu pour permettre
ordinateurs à utiliser comme
intuitivement comme le ferait un humain

Nous introduisons une méthode de planification hiérarchique augmentée par l'expérience. Cette méthode utilise les connaissances Web en ligne pour obtenir des informations actualisées sur les logiciels et les sites Web qui changent fréquemment, ainsi que la mémoire narrative pour tirer parti des expériences de haut niveau issues d'interactions passées. En divisant les tâches complexes en sous-tâches gérables et en utilisant la mémoire épisodique pour les guider étape par étape, l'Agent S affine continuellement ses actions et apprend de son expérience, réalisant ainsi une planification des tâches adaptable et efficace.

Nous présentons Agent S, un framework agentique ouvert qui permet une interaction autonome avec des ordinateurs via une interface utilisateur graphique (GUI), visant à transformer l'interaction homme-machine en automatisant des tâches complexes en plusieurs étapes

À cette fin, Agent S introduit une planification hiérarchique augmentée par l'expérience, qui tire des enseignements de la recherche de connaissances externes et de l'extraction d'expériences internes à plusieurs niveaux, facilitant ainsi une planification des tâches et une exécution des sous-tâches efficaces.

En outre, il utilise une interface agent-ordinateur pour mieux exploiter les capacités de raisonnement et de contrôle des agents GUI sur la base de grands modèles de langage multimodaux. L'évaluation de l'indice de référence OSWorld montre que l'Agent S surpasse le taux de réussite de 9,37 % par rapport à la base de référence (soit une amélioration relative de 83,6 %) et atteint un nouveau niveau de pointe. Une analyse complète met en évidence l'efficacité de chaque composant et fournit des informations pour les améliorations futures.

En outre, l'Agent S fait preuve d'une large généralisabilité à différents systèmes d'exploitation sur une nouvelle version
WindowsAgent Arena est une référence.

L'agent S répond à trois défis majeurs en matière d'automatisation des tâches informatiques :

Overview of Agent S Framework

Vue d'ensemble de Agent S Framework

En fonction de la tâche Tu et de l'observation initiale de l'environnement 0o, le responsable effectue une planification hiérarchique augmentée par l'expérience en utilisant les connaissances du Web et la mémoire narrative pour produire des sous-tâches So,..., Sn. Pour chaque Si, Worker Wi puise dans la mémoire épisodique pour générer une action à l'instant t, qui est exécutée par l'ACI pour renvoyer la prochaine observation immédiate ot+1. Un module d'auto-évaluation ferme la boucle en stockant les trajectoires résumées des sous-tâches et des tâches complètes dans la mémoire narrative et épisodique.

Overview of Agent S Framework

Pipeline de Construction de la mémoire et mise à jour

Le pipeline de construction et de mise à jour de la mémoire, qui comprend deux phases : exploration autosupervisée et mise à jour continue de la mémoire. La mémoire narrative et épisodique initiale est construite à l'aide de tâches sélectionnées au hasard pendant la phase d'exploration, puis elle est continuellement mise à jour en fonction des tâches d'inférence.

Pipeline of Memory Construction and Update

Résultat principal

Ce tableau montre la comparaison des performances entre l'Agent S et les modèles de base, évaluées sur l'ensemble des tests d'OSWorld. Pour le modèle GPT-4o, l'agent S atteint un taux de réussite global de 20,58 %, soit presque le double des performances de la meilleure base correspondante (GPT-4o avec 11,21 %).

L'agent S surpasse régulièrement les niveaux de référence dans les tâches « quotidiennes » et « professionnelles », où il atteint des taux de réussite de 27,06 % et 36,73 %, respectivement, contre les meilleurs résultats de base de 12,33 % et 14,29 %. Ces tâches sont couramment utilisées dans la vie quotidienne ou associées à des applications professionnelles à forte intensité de connaissances, qui bénéficient davantage de l'augmentation de la récupération de l'agent S. Claude-3.5-Sonnet et GPT-4o surpassent les versions de base dans la majorité des tâches. Claude-3.5-Sonnet est même plus performant que GPT-4o dans les tâches « quotidiennes » et « professionnelles ».

Les résultats démontrent la capacité accrue de l'agent S à gérer des tâches diverses et complexes plus efficacement que les approches de base.

Pipeline of Memory Construction and Update
Principaux résultats du taux de réussite (%) sur l'ensemble de tests complet d'OSWorld comprenant les 369 exemples de tests

Analyse

Pour démontrer l'efficacité des modules individuels de l'Agent S, nous avons stratifié un sous-ensemble de 65
instances, testsub du kit de test complet pour l'étude d'ablation. Compte tenu du coût d'inférence, nous avons utilisé GPT-4o comme
Base LLM pour toutes les études d'ablation, à la fois pour la base et pour l'agent S.

L'apprentissage par l'expérience améliore la connaissance du domaine des agents d'interface graphique

Main results of Successful Rate (%) on the OSWorld full test set of all 369 test examples

Principaux résultats du taux de réussite (%) sur l'ensemble de tests complet d'OSWorld comprenant les 369 exemples de tests

Tirer parti de l'expérience universelle disponible sous forme de connaissance du Web permet à l'agent S d'élaborer des plans éclairés pour un large éventail de tâches et a un impact très significatif. L'apprentissage à partir de mémoires narratives et épisodiques est en synergie efficace avec la récupération sur le Web, et les résultats décrivent en détail comment leur ablation affecte la capacité de l'agent à gérer des tâches complexes, soulignant ainsi la valeur de l'apprentissage par l'expérience. Ces résultats démontrent que chaque composant joue un rôle essentiel dans l'amélioration des connaissances du domaine de l'agent. La suppression des trois composants (sans tous) dégrade les performances de manière significative, révélant l'importance de tirer les leçons de l'expérience lors de la conception.

L'ACI suscite de meilleures capacités de raisonnement des LLM
et favorise un meilleur apprentissage agentique

La comparaison de la base de référence avec l'agent S (ACI uniquement) met en évidence les capacités de raisonnement améliorées obtenues grâce à l'incorporation de l'ACI. De plus, nous avons examiné l'impact de l'ACI sur l'apprentissage agentique en intégrant le processus d'apprentissage par l'expérience. À titre de référence, l'ajout de l'apprentissage par l'expérience a légèrement amélioré les performances globales. Cependant, une fois ajouté à l'agent S (ACI uniquement), les performances se sont considérablement améliorées, démontrant ainsi l'efficacité de l'ACI pour améliorer l'apprentissage agentique

Supports de planification hiérarchique
flux de travail à long terme

La configuration ACI uniquement + apprentissage par l'expérience montre les performances de l'agent S sans planification hiérarchique et la baisse de performance observée
(26,15 % à 20,00 %) par rapport à l'agent S complet souligne l'importance de la planification hiérarchique dans la modélisation des flux de travail à long terme. L'effet de la formulation hiérarchique devient prononcé en présence d'un apprentissage par l'expérience, car le responsable peut générer des plans plus détaillés et plus précis au stade de la planification des sous-tâches.

L'exploration, la mise à jour continue de la mémoire et l'auto-évaluation sont indispensables à la construction de la mémoire

La suppression de l'exploration limite les mises à jour de la mémoire à la phase d'inférence uniquement. La suppression de la mise à jour continue de la mémoire signifie que nous n'utilisons que la mémoire obtenue lors de la phase d'exploration sans mises à jour ultérieures. Supprimer l'auto-évaluateur implique de remplacer les expériences résumées par les trajectoires complètes d'origine. Les résultats révèlent que l'annulation des phases de mise à jour continue de la mémoire et d'exploration autosupervisée entraîne une baisse des performances, l'exploration autosupervisée ayant beaucoup plus d'impact. L'ablation de l'auto-évaluateur montre en outre les avantages de l'utilisation de trajectoires résumées au lieu d'exemples de trajectoires complètes pour la planification.

Généralisation à différents Systèmes d'exploitation

Nous testons le framework Agent S sans aucune modification sur WindowsAgentArena, une référence du système d'exploitation Windows publiée en même temps que nos travaux. Nous comparons l'Agent S avec une configuration similaire avec GPT-4o comme backbone MLLM, arbre d'accessibilité + image comme entrée et analyse syntaxique avec OCR. Comme le montre le tableau, l'agent S surpasse l'agent Navi sans aucune adaptation au nouvel environnement Windows.

Results of Successful Rate (%) on WindowsAgentArena using GPT-4o and Image + Accessibility Tree input on the full test set of all 154 test examples

Résultats du taux de réussite (%) sur WindowsAgentArena à l'aide de GPT-4o et de la saisie complète de l'image et de l'arbre d'accessibilité

BibTeX

@misc {Agents,

 title= {Agent S : un framework agentique ouvert qui utilise les ordinateurs comme un humain},

 author= {Saaket Agashe*, Jiuzhou Han*, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang},
année= {2024},

 eprint= {},

 ArchivePrefix= {arXiv},

 PrimaryClass= {cs.AI}

}

Prêt à utiliser votre
ordinateur d'une manière similaire ?

Partagez et organisez votre mémoire et personnalisez vos tâches.