シミュレーション AI

エージェント S2 テクニカルレビュー

コンピュータ利用エージェントのための構成型ジェネラリスト・スペシャリスト・フレームワーク

2025年4月1日

人間のようにコンピューターを使用できるエージェントを構築することは、汎用人工知能への道のりで最も手ごわいマイルストーンの1つであることに変わりはありません。自由形式のデジタルタスクの実行から、GUIによるなじみのないアプリケーションの操作まで、問題の領域は広大でノイズが多く、非常に動的です。本日、このテクニカルペーパーを発表できることを嬉しく思います。 エージェント S2は、複数のコンピューター使用ベンチマークで新たな最先端のパフォーマンスを設定したモジュラーフレームワークです。

2 週間前、私たちは Agent S2 をオープンソース化しました。さて、このテクニカルペーパーの公開を機に、システムの背後にある核となるアイデアとアーキテクチャについてさらに詳しく説明できることを嬉しく思います。初心者にわかりやすい説明については、以前のブログ投稿をご覧ください。

エージェント S2 についてもっと読む

エージェント S2 の概要:コンポジションインテリジェンス

Agent S2は、シンプルでありながら強力なアイデアに基づいて設計されています。画面とのインタラクションを計画、実行、基盤づけるために単一のモノリシックモデルに頼るのではなく、これらの責任をジェネラリストモジュールとスペシャリストモジュールに分けます。この構成構成は、ハイレベルのプランナー、下位レベルのエグゼキューター、インターフェースのスペシャリストが連携して作業する、熟練した人間のオペレーターの働き方を模倣しています。

Agent S2 Technical Review
ジェネラリストプランニングとスペシャリストグラウンディングを組み合わせたエージェントS2アーキテクチャ。

エージェント S2 の主な機能:

  • グラウンディングの混合物(MoG): GUI要素を正確にローカライズするために、一連の基礎となる専門家(ビジュアル、テキスト、構造)を活用します。


  • プロアクティブ階層計画 (PHP): 決まったスクリプトに従うのではなく、環境からのフィードバックに基づいてプランを動的に調整します。

ベンチマーク結果:プラットフォームを問わず最先端

Agent S2は、広く使われているOSWorldベンチマークに新たな基準を打ち立てました。

また、次のような強力な一般化も示しています。

  • ウィンドウズエージェントアリーナ:以前のSOTAと比べて 52.8% 向上

  • アンドロイドワールド:以前のSOTAと比較して +16.5% 向上

Agent S2 Technical Review
オスワールドでの成功率。エージェント S2 は以前のエージェントを大幅に上回ります。
ウィンドウズエージェントアリーナでの成功率。エージェント S2 は以前のエージェントを大幅に上回っています。

デザインイノベーション:MoG + PHP

ほとんどのエージェントは、基盤が不十分だったり、計画が厳格だったりすることが原因で失敗します。エージェント S2 は次の両方に対応します。

  • グラウンディングの混合物: 各インタラクションを最適なエキスパートにルーティングします。例えば、スプレッドシートの場合は構造的グラウンディングの専門家を、ボタンの場合は視覚的なグラウンディングを行います。グラウンディングを計画から切り離すと、基本的に、問題全体が (比較的) 単純な2つの (比較的) サブ問題に分解されます。これらのサブ問題は、現在の一般的な推論モデルと特殊な視覚的グラウンディングモデルのトレーニング分布とよりよく一致します。

  • プロアクティブ・プランニング: サブゴールを継続的に改善し、新しい観察結果に基づいて調整します。何かが変わったときに人間が計画を再評価する方法を模倣します。

Agent S2 Technical Review
Agent S2 は、ビジュアルグラウンディングからテキストグラウンディングに切り替えることで自己修正します。

スケーリングとエラー回復

視野が長いほど、Agent S2 はモノリシックモデルよりもスケーリングしやすくなります。その場で適応し、最初のアクションで目的の効果が得られない場合は自動的に修正されます。

Agent S2 Technical Review
Agent S2がより長い視野で成功する理由:アダプティブナビゲーション、インタラクション、補正

デスクトップ以外のジェネラライズ:Android の検索結果

Agent S2 は主にデスクトップエージェント向けに構築されていますが、モバイル環境にもよく応用できます。

エージェントS2は、AndroidWorldのスマートフォン使用ベンチマークにおいて最先端のベンチマークを達成しています。

結論:モジュラーエージェント、真の進歩

エージェントS2は、構成性は単なる洗練された設計哲学ではなく、人間のようにコンピューターを堅牢に使用できる構築エージェントにとって有利な戦略であることを示しています。今回の研究により、汎用人工知能に一歩近づき、プランニング、グラウンディング、マルチモーダルコーディネーションにおける研究の新しい方向性が開かれると信じています。

をチェックしてください コード論文

すぐに使用できる
同じような方法でコンピューター?

記憶を共有して整理し、タスクをパーソナライズします。