新規

Agent S: コンピュータを人間のように利用するオープンエージェントフレームワーク

2025年2月27日

ヘイ!数か月前、プリンストン大学でエージェントとSimularについての私の考えについて講演しました。要約をまとめてブログ記事にするべきだと思いました。

最先端のパフォーマンス

私の最初の仕事は、Google DeepMindのリサーチサイエンティストでした。そこでの私の重要な役割は、さまざまなGoogle製品チームと協力して、最先端のAIテクノロジーを適用する機会を見つけることでした。しかし、あるGoogle社員から全く関係のない質問があり、それが最終的にDeepMindを辞めてSimularを始める決断のきっかけになったのかもしれません。

エージェント S は 新しいエージェント
フレームワーク
可能になるように設計
として使用するコンピュータ
人間のように直感的に

エクスペリエンス拡張型階層計画法を紹介します。この方法では、頻繁に変更されるソフトウェアやウェブサイトに関する最新情報を提供するオンライン・ウェブ・ナレッジと、過去のやりとりから得たハイレベルな体験を活用するためのナラティブ・メモリーを活用します。エージェントSは、複雑なタスクを管理しやすいサブタスクに分割し、エピソード記憶を使用して段階的なガイダンスを行うことで、継続的にアクションを改良し、経験から学び、適応可能で効果的なタスクプランニングを実現します。

オープンエージェントフレームワークであるエージェントSを紹介します。 自律的な対話を可能にする 複雑な複数ステップのタスクを自動化することにより、人間とコンピューターの相互作用を変革することを目的としたグラフィカルユーザーインターフェイス(GUI)によるコンピューターとの連携

この目的のために、エージェントSは、外部知識検索と内部経験検索から複数のレベルで学習する経験拡張階層計画を導入し、効率的なタスク計画とサブタスク実行を促進します。

さらに、マルチモーダル大規模言語モデルに基づくGUIエージェントの推論と制御機能をよりよく引き出すために、エージェント-コンピューターインターフェースを採用しています。OsWorld ベンチマークの評価によると、Agent S はベースラインの成功率を 9.37% 上回り (相対的に 83.6% 向上)、新しい最先端技術を実現しています。包括的な分析により、個々のコンポーネントの有効性が明らかになり、将来の改善のための洞察が得られます。

さらに、Agent S は、新しくリリースされたオペレーティングシステムでさまざまなオペレーティングシステムに幅広く汎用化できることを示しています。
ウィンドウズエージェントアリーナのベンチマーク。

エージェントSは、コンピュータタスクの自動化における3つの主要な課題に対処します。

Overview of Agent S Framework

概要 エージェント S フレームワークの

タスク Tu と初期環境観察 0 o が与えられたら、マネージャーは Web 知識とナラティブメモリを使用して経験に基づく階層計画を実施し、サブタスク So,..., Sn を作成します。ワーカー Wi は Si ごとに、エピソード記憶から抽出して時間 t でのアクションを生成します。このアクションは ACI によって実行され、次の即時観測値 ot+1 が返されます。自己評価モジュールは、要約されたサブタスクとフルタスクの軌跡を物語記憶とエピソード記憶に保存することでループを閉じます。

Overview of Agent S Framework

のパイプライン メモリ構築 と更新

メモリの構築と更新のパイプラインには、自己監視による探索と継続的なメモリ更新という2つのフェーズが含まれます。最初の物語記憶とエピソード記憶は、探索段階でランダムにキュレーションされたいくつかのタスクによって構築され、その後、推論タスクに基づいて継続的に更新されます。

Pipeline of Memory Construction and Update

主な結果

この表は、OsWorldテストセット全体で評価された、Agent Sとベースラインモデルのパフォーマンスの比較を示しています。GPT-4o モデルでは、エージェント S の全体的な成功率は 20.58% で、対応する最良のベースライン (GPT-4o で 11.21%) のほぼ2倍のパフォーマンスを達成しています。

エージェントSは、「デイリー」タスクと「プロフェッショナル」タスクで一貫してベースラインを上回り、成功率はそれぞれ 27.06% と 36.73% に達しています。これに対し、ベースラインの最高結果は 12.33% と 14.29% でした。これらのタスクは日常生活でよく使われたり、知識を大量に消費するプロフェッショナルアプリケーションに関係するもので、エージェントSの検索増強のメリットがより大きくなります。Claude-3.5-SonnetとGPT-4oはどちらも、大部分のタスクでベースラインバージョンよりも優れています。Claude-3.5-Sonnetは、「デイリー」タスクや「プロフェッショナル」タスクでも、GPT-4Oよりも優れたパフォーマンスを発揮します。

この結果は、基本アプローチよりも多様で複雑なタスクをより効果的に処理するエージェントSの能力が強化されていることを示しています。

Pipeline of Memory Construction and Update
369のテスト例すべてを含むOSWorldフルテストセットでの成功率(%)の主な結果

分析

エージェントSの個々のモジュールの有効性を実証するために、65のサブセットを層別化してサンプリングしました。
アブレーションスタディの全テストセットからインスタンスとテストサブを推論コストを考慮して、GPT-4Oをそのまま利用しました。
ベースラインとエージェントSの両方のすべてのアブレーション研究に対応するLLMバックボーン

経験から学ぶことで、GUIエージェントのドメイン知識が深まる

Main results of Successful Rate (%) on the OSWorld full test set of all 369 test examples

369のテスト例すべてを含むOSWorldフルテストセットでの成功率(%)の主な結果

Webの知識として利用できる普遍的な経験から学ぶことで、エージェントSは幅広いタスクにわたって情報に基づいた計画を立てることができ、最も大きな影響を与えます。物語記憶とエピソード記憶からの学習は、ウェブ検索と効果的に相乗効果を発揮し、その結果から、それらのアブレーションがエージェントの複雑なタスク処理能力にどのように影響するかが詳しく説明されており、体験学習の価値が強調されています。これらの結果は、各コンポーネントがエージェントのドメイン知識を高める上で重要な役割を果たすことを示しています。3 つのコンポーネントすべて (すべて除く) を削除するとパフォーマンスが大幅に低下し、設計における経験から学ぶことの重要性が明らかになります。

ACIはLLMのより優れた推論能力を引き出す
そして、より優れたエージェント・ラーニングをサポートします。

ベースラインをエージェントS(ACIのみ)と比較すると、ACIを組み込むことで達成される推論能力の向上が浮き彫りになります。さらに、体験学習プロセスを統合することにより、ACIがエージェント学習に与える影響を調べました。ベースラインとしては、体験学習を追加すると、全体的なパフォーマンスが若干向上しました。しかし、エージェントS(ACIのみ)に追加するとパフォーマンスが大幅に向上し、エージェント型学習の強化におけるACIの有効性が実証されました。

階層型計画サポート
長期ワークフロー

のACI専用+体験学習設定では、階層型プランニングを行わない場合のエージェントSのパフォーマンスと、観察されたパフォーマンスの低下が示されています。
エージェント S 全体と比較すると (26.15% から 20.00%)、長期的なワークフローのモデル化における階層計画の重要性が強調されています。マネージャーはサブタスク計画段階でより詳細で正確な計画を作成できるため、経験学習があると、階層的定式化の効果が顕著になります。

記憶構築には、探索、継続的な記憶更新、自己評価が不可欠です

探索を削除すると、メモリの更新は推論フェーズのみに制限されます。継続的なメモリ更新を削除するということは、探索フェーズで取得したメモリだけを使用し、その後の更新は行わないということです。自己評価基準を削除すると、要約された体験を元の完全な軌跡に置き換える必要があります。その結果、継続的なメモリ更新フェーズと自己教師付き探索フェーズの両方を調整するとパフォーマンスが低下し、自己教師付き探索のほうがはるかに影響が大きいことが明らかになりました。Self-Evaluatorのアブレーションは、計画に完全な軌跡の模範ではなく、要約された軌跡を使うことの利点をさらに示しています。

異なるものへの一般化 オペレーティングシステム

エージェントSフレームワークは、私たちの作業と同時にリリースされたWindows OSベンチマークであるWindowsAgentArenaで、変更なしでテストしています。Agent S を MLLM バックボーンとして GPT-4o、入力としてアクセシビリティツリー + イメージを入力、OCR で解析した同様の構成と比較します。表に示すように、新しい Windows 環境に適応しなくても、エージェント S は Navi エージェントよりも優れています。

Results of Successful Rate (%) on WindowsAgentArena using GPT-4o and Image + Accessibility Tree input on the full test set of all 154 test examples

GPT-4Oとイメージ+アクセシビリティツリーの入力をフルに使用したWindowsAgentArenaでの成功率 (%) の結果

ビブテックス

@misc {エージェント、

 title= {Agent S: コンピュータを人間のように利用するオープンエージェントフレームワーク},

 author= {Saaket Agashe*、Jiuzhou Han*、Shuyu Gan、Jiachen Yang、Ang Li、Xin Eric Wang}、
年= {2024},

 スプリント= {}、

 アーカイブプレフィックス = {arXiv}、

 プライマリクラス = {cs.AI}

}

すぐに使用できる
同じような方法でコンピューター?

記憶を共有して整理し、タスクをパーソナライズします。