エージェント S2 テクニカルレビュー
2025年4月1日
人間のようにコンピューターを使用できるエージェントを構築することは、汎用人工知能への道のりで最も手ごわいマイルストーンの1つであることに変わりはありません。自由形式のデジタルタスクの実行から、GUIによるなじみのないアプリケーションの操作まで、問題の領域は広大でノイズが多く、非常に動的です。本日、このテクニカルペーパーを発表できることを嬉しく思います。 エージェント S2は、複数のコンピューター使用ベンチマークで新たな最先端のパフォーマンスを設定したモジュラーフレームワークです。
2 週間前、私たちは Agent S2 をオープンソース化しました。さて、このテクニカルペーパーの公開を機に、システムの背後にある核となるアイデアとアーキテクチャについてさらに詳しく説明できることを嬉しく思います。初心者にわかりやすい説明については、以前のブログ投稿をご覧ください。
エージェント S2 の概要:コンポジションインテリジェンス
Agent S2は、シンプルでありながら強力なアイデアに基づいて設計されています。画面とのインタラクションを計画、実行、基盤づけるために単一のモノリシックモデルに頼るのではなく、これらの責任をジェネラリストモジュールとスペシャリストモジュールに分けます。この構成構成は、ハイレベルのプランナー、下位レベルのエグゼキューター、インターフェースのスペシャリストが連携して作業する、熟練した人間のオペレーターの働き方を模倣しています。

エージェント S2 の主な機能:
グラウンディングの混合物(MoG): GUI要素を正確にローカライズするために、一連の基礎となる専門家(ビジュアル、テキスト、構造)を活用します。
プロアクティブ階層計画 (PHP): 決まったスクリプトに従うのではなく、環境からのフィードバックに基づいてプランを動的に調整します。
ベンチマーク結果:プラットフォームを問わず最先端
Agent S2は、広く使われているOSWorldベンチマークに新たな基準を打ち立てました。

また、次のような強力な一般化も示しています。
ウィンドウズエージェントアリーナ:以前のSOTAと比べて 52.8% 向上
アンドロイドワールド:以前のSOTAと比較して +16.5% 向上

.webp)
デザインイノベーション:MoG + PHP
ほとんどのエージェントは、基盤が不十分だったり、計画が厳格だったりすることが原因で失敗します。エージェント S2 は次の両方に対応します。
グラウンディングの混合物: 各インタラクションを最適なエキスパートにルーティングします。例えば、スプレッドシートの場合は構造的グラウンディングの専門家を、ボタンの場合は視覚的なグラウンディングを行います。グラウンディングを計画から切り離すと、基本的に、問題全体が (比較的) 単純な2つの (比較的) サブ問題に分解されます。これらのサブ問題は、現在の一般的な推論モデルと特殊な視覚的グラウンディングモデルのトレーニング分布とよりよく一致します。
プロアクティブ・プランニング: サブゴールを継続的に改善し、新しい観察結果に基づいて調整します。何かが変わったときに人間が計画を再評価する方法を模倣します。

スケーリングとエラー回復
視野が長いほど、Agent S2 はモノリシックモデルよりもスケーリングしやすくなります。その場で適応し、最初のアクションで目的の効果が得られない場合は自動的に修正されます。

デスクトップ以外のジェネラライズ:Android の検索結果
Agent S2 は主にデスクトップエージェント向けに構築されていますが、モバイル環境にもよく応用できます。

すぐに使用できる
同じような方法でコンピューター?
記憶を共有して整理し、タスクをパーソナライズします。