Nouveau

Agent S : un framework agentique ouvert qui utilise les ordinateurs comme un humain

27 février 2025

Saket Agashe*,

Jiuzhou Han*,

Hé ! Il y a quelques mois, j'ai donné une conférence à l'université de Princeton sur mes réflexions sur les agents et Simular. J'ai pensé que je devais rédiger un résumé et le transformer en article de blog.

Des performances de pointe

J'ai d'abord travaillé en tant que chercheuse scientifique chez Google DeepMind, où une partie essentielle de mon rôle consistait à collaborer avec différentes équipes de produits Google afin d'identifier les opportunités d'application de notre technologie d'IA de pointe. Cependant, un Googler m'a posé une question totalement indépendante qui a peut-être finalement motivé ma décision de quitter DeepMind et de lancer Simular.

L'agent S est un nouvelle agence
cadre conçu pour permettre
ordinateurs à utiliser comme
intuitivement comme le ferait un humain

Nous introduisons une méthode de planification hiérarchique augmentée par l'expérience. Cette méthode utilise les connaissances Web en ligne pour obtenir des informations actualisées sur les logiciels et les sites Web qui changent fréquemment, ainsi que la mémoire narrative pour tirer parti des expériences de haut niveau issues d'interactions passées. En divisant les tâches complexes en sous-tâches gérables et en utilisant la mémoire épisodique pour les guider étape par étape, l'Agent S affine continuellement ses actions et apprend de son expérience, réalisant ainsi une planification des tâches adaptable et efficace.

Résumé

Nous présentons Agent S, un framework agentique ouvert qui permet une interaction autonome avec des ordinateurs via une interface utilisateur graphique (GUI), visant à transformer l'interaction homme-machine en automatisant des tâches complexes en plusieurs étapes

À cette fin, Agent S introduit une planification hiérarchique augmentée par l'expérience, qui tire des enseignements de la recherche de connaissances externes et de l'extraction d'expériences internes à plusieurs niveaux, facilitant ainsi une planification des tâches et une exécution des sous-tâches efficaces.

En outre, il utilise une interface agent-ordinateur pour mieux exploiter les capacités de raisonnement et de contrôle des agents GUI sur la base de grands modèles de langage multimodaux. L'évaluation de l'indice de référence OSWorld montre que l'Agent S surpasse le taux de réussite de 9,37 % par rapport à la base de référence (soit une amélioration relative de 83,6 %) et atteint un nouveau niveau de pointe. Une analyse complète met en évidence l'efficacité de chaque composant et fournit des informations pour les améliorations futures.

En outre, l'Agent S fait preuve d'une large généralisabilité à différents systèmes d'exploitation sur une nouvelle version
WindowsAgent Arena est une référence.

L'agent S répond à trois défis majeurs en matière d'automatisation des tâches informatiques :

Instruction relative à la tâche

Aidez-moi à supprimer le compte « anonym-x2024@outlook.com »

Vue d'ensemble de Agent S Framework

En fonction de la tâche Tu et de l'observation initiale de l'environnement 0o, le responsable effectue une planification hiérarchique augmentée par l'expérience en utilisant les connaissances du Web et la mémoire narrative pour produire des sous-tâches So,..., Sn. Pour chaque Si, Worker Wi puise dans la mémoire épisodique pour générer une action à l'instant t, qui est exécutée par l'ACI pour renvoyer la prochaine observation immédiate ot+1. Un module d'auto-évaluation ferme la boucle en stockant les trajectoires résumées des sous-tâches et des tâches complètes dans la mémoire narrative et épisodique.

Pipeline de Construction de la mémoire et mise à jour

Le pipeline de construction et de mise à jour de la mémoire, qui comprend deux phases : exploration autosupervisée et mise à jour continue de la mémoire. La mémoire narrative et épisodique initiale est construite à l'aide de tâches sélectionnées au hasard pendant la phase d'exploration, puis elle est continuellement mise à jour en fonction des tâches d'inférence.

Pipeline of Memory Construction and Update

Résultat principal

Ce tableau montre la comparaison des performances entre l'Agent S et les modèles de base, évaluées sur l'ensemble des tests d'OSWorld. Pour le modèle GPT-4o, l'agent S atteint un taux de réussite global de 20,58 %, soit presque le double des performances de la meilleure base correspondante (GPT-4o avec 11,21 %).

L'agent S surpasse régulièrement les niveaux de référence dans les tâches « quotidiennes » et « professionnelles », où il atteint des taux de réussite de 27,06 % et 36,73 %, respectivement, contre les meilleurs résultats de base de 12,33 % et 14,29 %. Ces tâches sont couramment utilisées dans la vie quotidienne ou associées à des applications professionnelles à forte intensité de connaissances, qui bénéficient davantage de l'augmentation de la récupération de l'agent S. Claude-3.5-Sonnet et GPT-4o surpassent les versions de base dans la majorité des tâches. Claude-3.5-Sonnet est même plus performant que GPT-4o dans les tâches « quotidiennes » et « professionnelles ».

Les résultats démontrent la capacité accrue de l'agent S à gérer des tâches diverses et complexes plus efficacement que les approches de base.

Principaux résultats du taux de réussite (%) sur l'ensemble de tests complet d'OSWorld comprenant les 369 exemples de tests

Analyse

Pour démontrer l'efficacité des modules individuels de l'Agent S, nous avons stratifié un sous-ensemble de 65
instances, testsub du kit de test complet pour l'étude d'ablation. Compte tenu du coût d'inférence, nous avons utilisé GPT-4o comme
Base LLM pour toutes les études d'ablation, à la fois pour la base et pour l'agent S.

L'apprentissage par l'expérience améliore la connaissance du domaine des agents d'interface graphique

Main results of Successful Rate (%) on the OSWorld full test set of all 369 test examples

Principaux résultats du taux de réussite (%) sur l'ensemble de tests complet d'OSWorld comprenant les 369 exemples de tests

Tirer parti de l'expérience universelle disponible sous forme de connaissance du Web permet à l'agent S d'élaborer des plans éclairés pour un large éventail de tâches et a un impact très significatif. L'apprentissage à partir de mémoires narratives et épisodiques est en synergie efficace avec la récupération sur le Web, et les résultats décrivent en détail comment leur ablation affecte la capacité de l'agent à gérer des tâches complexes, soulignant ainsi la valeur de l'apprentissage par l'expérience. Ces résultats démontrent que chaque composant joue un rôle essentiel dans l'amélioration des connaissances du domaine de l'agent. La suppression des trois composants (sans tous) dégrade les performances de manière significative, révélant l'importance de tirer les leçons de l'expérience lors de la conception.

L'ACI suscite de meilleures capacités de raisonnement des LLM et favorise un meilleur apprentissage agentique

La comparaison de la base de référence avec l'agent S (ACI uniquement) met en évidence les capacités de raisonnement améliorées obtenues grâce à l'incorporation de l'ACI. De plus, nous avons examiné l'impact de l'ACI sur l'apprentissage agentique en intégrant le processus d'apprentissage par l'expérience. À titre de référence, l'ajout de l'apprentissage par l'expérience a légèrement amélioré les performances globales. Cependant, une fois ajouté à l'agent S (ACI uniquement), les performances se sont considérablement améliorées, démontrant ainsi l'efficacité de l'ACI pour améliorer l'apprentissage agentique

Supports de planification hiérarchique
flux de travail à long terme

La configuration ACI uniquement + apprentissage par l'expérience montre les performances de l'agent S sans planification hiérarchique et la baisse de performance observée (26,15 % à 20,00 %) par rapport à l'agent S complet souligne l'importance de la planification hiérarchique dans la modélisation des flux de travail à long terme. L'effet de la formulation hiérarchique devient prononcé en présence d'un apprentissage par l'expérience, car le responsable peut générer des plans plus détaillés et plus précis au stade de la planification des sous-tâches.

L'exploration, la mise à jour continue de la mémoire et l'auto-évaluation sont indispensables à la construction de la mémoire

La suppression de l'exploration limite les mises à jour de la mémoire à la phase d'inférence uniquement. La suppression de la mise à jour continue de la mémoire signifie que nous n'utilisons que la mémoire obtenue lors de la phase d'exploration sans mises à jour ultérieures. Supprimer l'auto-évaluateur implique de remplacer les expériences résumées par les trajectoires complètes d'origine. Les résultats révèlent que l'annulation des phases de mise à jour continue de la mémoire et d'exploration autosupervisée entraîne une baisse des performances, l'exploration autosupervisée ayant beaucoup plus d'impact. L'ablation de l'auto-évaluateur montre en outre les avantages de l'utilisation de trajectoires résumées au lieu d'exemples de trajectoires complètes pour la planification.

Généralisation à différents Systèmes d'exploitation

Nous testons le framework Agent S sans aucune modification sur WindowsAgentArena, une référence du système d'exploitation Windows publiée en même temps que nos travaux. Nous comparons l'Agent S avec une configuration similaire avec GPT-4o comme backbone MLLM, arbre d'accessibilité + image comme entrée et analyse syntaxique avec OCR. Comme le montre le tableau, l'agent S surpasse l'agent Navi sans aucune adaptation au nouvel environnement Windows.

Results of Successful Rate (%) on WindowsAgentArena using GPT-4o and Image + Accessibility Tree input on the full test set of all 154 test examples

Résultats du taux de réussite (%) sur WindowsAgentArena à l'aide de GPT-4o et de la saisie complète de l'image et de l'arbre d'accessibilité

BibTeX

@misc {Agents,
  title= {Agent S : un framework agentique ouvert qui utilise les ordinateurs comme un humain},
  author= {Saaket Agashe*, Jiuzhou Han*, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang},
année= {2024},
  eprint= {},
  ArchivePrefix= {arXiv},
  PrimaryClass= {cs.AI} 
}

Understanding the AI Agentic Framework

The AI agentic framework is a modern approach that combines artificial intelligence (AI) with agent-based modeling. This combination aims to improve decision-making processes. With this framework, intelligent agents can work on their own within a system, which makes workflows smoother and promotes collaboration. By using machine learning and automation, the agentic framework creates a solid foundation for developing multi-agent systems that adjust to various situations.

Here are some key components of this framework:

Intelligent Agents: These software entities can take independent actions to achieve specific goals.
Decision-Making Algorithms: These algorithms help agents make informed choices based on the information they receive.
Agent Systems: This refers to groups of interconnected agents collaborating to complete complex tasks.

Microsoft and other tech leaders are using this framework to create smarter applications that need less human involvement.

Key Concepts of the Agentic Framework

The agentic framework includes several important concepts that are essential for its successful application:

Agent-Based Framework: A setup where individual agents work together to accomplish tasks, boosting efficiency.
Agentic Approach: This method encourages agents to act independently and highlights their ability to learn and adapt.
Workflows: Built in AI workplace assistants, these are the planned paths that agents follow to enhance processes and ensure smooth task execution.
Human-Agent Interaction: This is how humans communicate and guide the agents.

By incorporating languages like Python, developers can effectively use design patterns, adaptive agents, and debugging methods. This integration helps create better feedback loops and improves the overall performance of the system.

Applications of AI Agentic Framework

The applications of the AI agentic framework are broad and relevant across various fields:

AI Framework Variations: Different types can be adjusted to meet specific industry needs, ensuring flexibility.
AI Solutions: From virtual assistants to intricate management systems, these solutions expand operational possibilities.
Agent Orchestration: This involves coordinating multiple agents to achieve unified results.
Security and Management: The framework helps boost organizational efficiency while upholding security standards.

Prominent examples include platforms like GitHub and tools such as Langchain, showcasing how agentic AI can be implemented in real-world settings. These applications illustrate how intelligent systems can reshape business functions and enhance user experiences.

Benefits of Using an Agentic Framework

Using an agentic framework comes with many advantages:

Efficiency: It increases productivity by automating repetitive tasks, reducing the need for manual work.
Quality Management: The framework ensures consistent quality in results through structured processes.
Continuous Integration: Updates and improvements become easier, keeping the systems current and effective.
Cooperative Agents: It encourages collaboration among different agents, leading to improved problem-solving abilities.

This framework also addresses ethical concerns in AI, promoting transparency and responsible use of self-learning agents.

Challenges in Implementing Agentic Frameworks

While there are clear benefits, organizations may face a few challenges when adopting agentic frameworks:

Data Privacy: Protecting sensitive data is critical when implementing intelligent systems.
AI Governance: Setting regulations is necessary to manage the proper use and oversight of AI technologies.
Agent Performance Metrics: Finding suitable metrics to measure how well agents perform their tasks is essential.
Real-Time Agents: Managing agents in fast-paced environments requires advanced strategies and resilient systems.

Tackling these challenges is vital for successfully integrating the AI agentic model into existing systems to ensure safety and trustworthiness.

Conclusion

The AI agentic framework shows promise in the realm of artificial intelligence by providing a structured way to effectively utilize intelligent systems. By grasping its core concepts, applications, benefits, and challenges, organizations can better leverage AI to foster innovation and enhance efficiency.

Feel free to explore more about the AI agentic framework or share your opinions in the comments! Your questions and insights are valuable as we move forward in this exciting field.

Understanding the AI Agentic Framework

The AI agentic framework is a collection of ideas and methods aimed at creating intelligent systems that can act and make decisions on their own. This framework enhances collaboration between human users and artificial intelligence (AI) agents, promoting smooth workflows and effective automation.

Key aspects of the agent-based framework include:

Intelligent Agent Frameworks: These form the foundation for developing AI solutions that function in real-time.
Collaboration Mechanisms: Good communication among multiple agents boosts system performance.
Human-Agent Interaction: This part emphasizes how people can work alongside cognitive agents, leading to better experiences.
Multi-Agent Systems: Different agents work together to accomplish complex tasks, which may be too much for a single agent to handle.

You can see real-world applications of this framework in areas like healthcare, finance, and logistics, where AI applications enhance processes, lower mistakes, and improve results.

Key Components of an Agentic Approach

An agentic approach consists of essential components that define how it works and its effectiveness.

Agent Autonomy: The level of independence an agent has is crucial for effective automation.
Decision-Making Algorithms: These allow agents to evaluate situations and make smart choices based on current data.
Agent-Based Modeling: This method helps simulate interactions within a system, improving understanding and optimization.
Design Patterns: Established design patterns assist with programming agent systems, making them easier to maintain and scale.
Agent Cooperation: Successful implementation depends on agents working together smoothly.

A strong agentic model includes these components, enabling powerful agent technologies that drive innovation across various sectors.

Applications of the AI Agentic Framework

The AI agent framework has many applications across different sectors, highlighting its flexibility and effectiveness.

Some noteworthy examples are:

Project Management: AI agents improve project workflows, ensuring tasks are completed quickly and on time.
Data Privacy: Intelligent agents help manage sensitive data while ensuring compliance with regulations like GDPR.
Autonomous Agents: These self-operating agents take care of repetitive tasks, such as entering data so that humans can concentrate on strategic work.
Task-Oriented Agents: Designed to perform specific functions, these agents carry out tasks with great accuracy.

Leading companies like Microsoft and Nvidia utilize the agentic AI framework, showing how AI capabilities can be integrated effectively into their operations.

Benefits of Implementing Agentic Systems

Implementing agentic systems brings a variety of benefits that can boost efficiency and effectiveness in organizations:

Automation: Cuts down on manual work, speeding up task completion.
Ease of Use: Built with user experience in mind, making acceptance simple.
Real-Time Analytics: Offers instant feedback, supporting data-driven decisions.
AI Ethics: Complies with ethical standards, building trust with users.
Performance Metrics: Measures agent effectiveness, promoting continuous improvement.

These benefits explain why many organizations are adopting agentic variations to stay competitive in their fields.

Challenges and Considerations

While the agentic framework offers many chances for improvement, it also presents challenges that businesses should think about:

Security Risks: Protecting data and systems from cyber threats is crucial.
Complexity: Creating and implementing multi-agent systems can be intricate and time-consuming.
Data Governance: Organizations must follow regulations and best practices for data management.
AI Accountability: Figuring out who is responsible when AI makes decisions is an important concern.

Addressing these challenges requires a solid grasp of the framework's varieties and the underlying technologies, along with effective governance and accountability strategies in distributed AI systems.

Call to Action

Are you interested in exploring the potential of the AI agentic framework? Join the conversation below, share your thoughts, or learn more about how Simular AI can assist you in embracing intelligent automation.

Understanding the AI Agentic Framework

The AI Agentic Framework marks a significant change in how we design and use artificial intelligence (AI) systems. This framework aims to create intelligent systems that can make decisions on their own, work together with other agents, and adjust to changing environments. It serves as a foundational structure for cognitive agents to interact, manage workflows, and respond to dynamic situations effectively.

Key aspects include:

Agent-based Approach: This involves using independent entities that act according to specific guidelines and goals.
Multi-Agent Systems: These systems enable various agents to collaborate, which boosts overall efficiency and effectiveness.
Decision-Making Algorithms: These sophisticated algorithms help agents make informed choices by analyzing available data and context.

By leveraging this framework, AI can perform tasks more like humans do, leading to increased productivity and innovative applications across various fields.

Key Components of Agentic AI Systems

To build successful agentic AI systems, several key components need to be considered:

Management Tools: These tools help streamline coordination among agents to ensure smooth operation.
Automation Features: Automation minimizes the need for manual input, which enhances process efficiency.
Reasoning Capabilities: Intelligent agents utilize strong reasoning skills to evaluate situations and make sound decisions.
Design Patterns: By implementing established design patterns, developers can effectively structure complex agent systems.
Debugging Tools: These tools are vital for maintaining system reliability by quickly identifying and fixing issues.
Agent Collaboration Mechanisms: Encouraging cooperation among agents is essential for achieving complex objectives.

Together, these components work to enhance the effectiveness of the agentic approach, paving the way for advanced AI solutions.

Applications of the Agentic Framework in AI

The agentic framework supports a wide range of applications that can greatly benefit different industries:

Virtual Agents: Often used in customer support, these agents provide 24/7 assistance, improving user satisfaction.
Autonomous Agents: In logistics and supply chain management, these agents optimize delivery processes.
Human-Agent Interaction: The framework helps improve user interfaces for better engagement and accessibility when used to build AI agent apps like ai browser automation.
Data Integration: It enables seamless connectivity between various data sources which enriches decision-making.
Feedback Mechanisms: These allow agents to learn from interactions, enhancing their capabilities over time.

This broad versatility illustrates how the framework adapts to different sectors, from finance to healthcare.

Challenges and Considerations

While the AI agent framework holds great potential, it also brings along certain challenges:

Data Privacy Concerns: With the increase in data usage, protecting personal information becomes essential.
Security Risks: Addressing vulnerabilities is crucial to safeguarding against cyber threats.
Ethical Considerations: The deployment of AI must follow ethical standards to prevent misuse.
Project Management Complexity: Coordinating multiple agent systems requires effective leadership and clear guidelines.
Performance Metrics: Setting performance metrics for agents is important for measuring success and adjusting strategies.

Tackling these challenges is important for the successful rollout of agentic systems, ensuring they remain efficient, secure, and ethically sound.

Overall, the AI Agentic Framework lays a solid foundation for developing advanced AI systems. By focusing on collaborative, intelligent agents, organizations can reach new heights in efficiency and creativity. As you explore the potential applications of this framework, keep in mind its benefits and the challenges that may arise to maintain a balanced approach to AI deployment.

If you found this information useful or have questions, feel free to share your thoughts below or distribute this article to others interested in the evolving landscape of AI.

Prêt à utiliser votre
ordinateur d'une manière similaire ?

Partagez et organisez votre mémoire et personnalisez vos tâches.

Essayez Sai

Agent S : un framework agentique ouvert qui utilise les ordinateurs comme un humain

Des performances de pointe

L'agent S est un nouvelle agence cadre conçu pour permettre ordinateurs à utiliser comme intuitivement comme le ferait un humain

Résumé

Nous présentons Agent S, un framework agentique ouvert qui permet une interaction autonome avec des ordinateurs via une interface utilisateur graphique (GUI), visant à transformer l'interaction homme-machine en automatisant des tâches complexes en plusieurs étapes

Instruction relative à la tâche

Aidez-moi à supprimer le compte « anonym-x2024@outlook.com »

Vue d'ensemble de Agent S Framework

Pipeline de Construction de la mémoire et mise à jour

Résultat principal

Analyse

L'apprentissage par l'expérience améliore la connaissance du domaine des agents d'interface graphique

L'ACI suscite de meilleures capacités de raisonnement des LLM et favorise un meilleur apprentissage agentique

Supports de planification hiérarchiqueflux de travail à long terme

L'exploration, la mise à jour continue de la mémoire et l'auto-évaluation sont indispensables à la construction de la mémoire

Généralisation à différents Systèmes d'exploitation

BibTeX

Prêt à utiliser votre ordinateur d'une manière similaire ?

L'agent S est un nouvelle agence
cadre conçu pour permettre
ordinateurs à utiliser comme
intuitivement comme le ferait un humain

L'ACI suscite de meilleures capacités de raisonnement des LLM et favorise un meilleur apprentissage agentique

Supports de planification hiérarchique
flux de travail à long terme

Prêt à utiliser votre
ordinateur d'une manière similaire ?