特集

エージェントS2: オープン、
コンピュータ使用エージェント向けのモジュール式でスケーラブルなフレームワーク

2025年3月12日

コンピュータ使用エージェントは、デスクトップ、モバイルデバイス、ブラウザ、さまざまなソフトウェアなどのグラフィカルユーザーインターフェイス(GUI)と直接対話することにより、人間のユーザーに代わってタスクを観察、推論、実行する自律型AIエージェントです。人間と同じようにマウスやキーボードの制御という最も直感的な方法で、人間のユーザーとデジタルツールをつなぐインテリジェントな仲介役として機能します。人間のようにソフトウェアを操作し制御できるこの能力は、AI の根本的な飛躍を示し、自律的なコンピューター利用エージェントによって推進される次世代の技術進歩への準備を整えます。



本日、コンピューター利用エージェントにおける次の飛躍を発表できることを嬉しく思います。エージェント S2、当社のエージェントフレームワークの第2世代です。当初の成功を踏まえて、 エージェント S2 フロンティアファンデーションモデルと特殊モデルの両方を活用することで、パフォーマンスとモジュール性がさらに向上します。 エージェント S2 新しい最先端の結果を実現し、より多くのステップでうまく拡張できます。そして最も重要なのは、完全にオープンであることです!

最先端のパフォーマンス

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents
オズワールド・ベンチマークでクロード3.7以上のUI-TARSを獲得したエージェントS2
(オズワールド・ベンチマークでクロード3.7以上のUI-TARSを獲得したエージェントS2)

Agent S2は、主要なベンチマーク課題において著しい進歩が見られるように、コンピューターと電話の使い方が優れていることを示しています。

コンピューターでの使用に関しては、Agent S2はOsWorldで15段階評価と50段階評価(実際の使用で最も実用的な2つの設定)の両方で最先端の結果を提供します。これは、エージェントフレームワークがより正確なアクションを実行し、タスクに最適な計画を生成すると同時に、長期にわたって自動的に修正および改善できることを証明しています。特に、Agent S2は50ステップの評価で34.5%の精度を達成し、以前のSOTA(OpenAI CUA/Operator、32.6%)を上回りました。これは、エージェントフレームワークが単一のトレーニング済みモデルを超えてどのように拡張できるかを示しています。

スマートフォンでの使用に関しては、エージェントS2はAndroidWorldで50%の精度を達成し、以前のSOTA(UI-TARS 46.8%)を上回りました。これは、さまざまなビジュアルUI環境にわたるエージェントフレームワークの一般化を実証しています。

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents

このブログ投稿に続いて、論文の準備中にAndroidWorldでより強力な結果が得られました。最新のパフォーマンスを反映するようにこの表を更新しました。包括的な詳細については、このホワイトペーパーを参照してください。

モジュラーフレームワークが重要な理由:人間の脳からのインスピレーション

人間の脳は、モジュール設計の顕著な例であり、特殊なコンポーネントのネットワークが一体となって機能するものです。左半球は分析的思考を促し、右半球は創造性を刺激し、運動領域と感覚領域は身体的協調を管理するといった異なる領域に長けています。コラボレーションに最適化されたこのモジュール構造が、コンピューター用の AI エージェント設計へのアプローチのヒントとなっています。

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents

Simularでは、最も効果的なAIエージェントは、単一のモノリシックシステムに頼るのではなく、多様なモデルをシームレスにオーケストレーションするモジュラーフレームワークという同様の原則に従うべきだと考えています。当社の初期のエージェントフレームワークは エージェント S2024年10月11日に発売され、このビジョンを体現しています。経験に基づいた階層型プランニングを中核として、Agent S は当時のどのモデルやフレームワークよりも全体的に優れたパフォーマンスを実現しました。

最新の調査では、個々のモデルが最適ではない場合でも、適切に設計されたモジュラーフレームワークは、最高のスタンドアロンモデルよりも優れていることがさらに示されています。その理由は?なぜなら、モデルが異なれば優れた分野も異なり、それぞれに独自の長所と短所があるからです。堅牢な フレームワークはオーケストレーションを最適化します これらのモジュールの中で、各モデルが最高のパフォーマンスを発揮する部分に貢献できるようにすることで、全体的に優れた成果を上げることができます。ファウンデーション・モデルを取り巻く環境が急速に進化する中で、 モジュール性が重要です。 私たちの次世代エージェントフレームワークは、 エージェント S2、モジュール性と柔軟性の向上により、認識、計画、きめ細かな制御が大幅に向上しました。

エージェント S2: 仕組み

Agent S2: An Open, Modular, and Scalable Framework for Computer Use Agents

Agent S2は、モジュール式でスケーラブルなアプローチを通じて複雑なデジタルタスクを処理するように構築されています。そのフレームワークは、次の 4 つの主要な設計原則に重点を置いています。

先を見越した階層計画

エージェントS2は自然なタスク階層に従い、組み合わせます 低レベルの実行に特化したモデルハイレベル計画用の一般化モデル。UI 要素の選択やテキストの強調表示などの低レベルのタスクには高い精度とドメイン固有の専門知識が必要ですが、高レベルのタスクには幅広い適応性と戦略的監視が必要です。さらに、Agent S2 の主な進歩は、そのシフトです。 事後対応型計画から事前対応型計画へ。エージェントS2は、バックトラックする手順が増え、エラーが増える可能性があるエラーが発生した後にのみ再計画するのではなく、サブタスクごとに計画を動的に更新します。このプロアクティブなアプローチにより、リアルタイムの変更への適応性、あるサブタスクから次のサブタスクへの継続性、および将来のステップの最適性が向上します。

正確なインタラクションを実現するビジュアル・グラウンディング
​​
Agent S2は、専用のビジュアル・グラウンディング・モデルを通じて、グラフィカル・ユーザー・インターフェース(GUI)との高精度のインタラクションを実現します。UI の理解をアクセシビリティツリーに依存していた前身とは異なり、 エージェントS2は、未加工のスクリーンショットの入力のみで動作します。構造化されたアクセシビリティデータが不要になります。視覚的な理解を専用モデルに委任することで、Agent S2はボタン、テキスト、画像、セルなどの UI 要素を正確に特定して操作できるようになり、以前はアクセシビリティの制約によって制限されていたきめ細かな制御が可能になります。

エキスパートモジュールを備えたエージェント・コンピュータ・インターフェース

Agent S2は、テキストの強調表示などの複雑で低レベルのタスクを次のタスクにオフロードすることで、エージェント・コンピュータ・インターフェース(ACI)を改善しています。 専門エキスパートモジュール。これ 認知的負荷を軽減します 基盤モデルに注目し、ハイレベルな計画と戦略的意思決定のみに集中できるようにします。

エージェント記憶メカニズム

エージェントS2は、継続的な学習記憶メカニズムを使用しており、経験とともに進化できるため、時間の経過とともに効率が向上します。以前に完了したタスクの経験は保持されるため、エージェント S2 は過去のアクションを思い出し、過去の成功と失敗に基づいて将来の戦略を練ることができます。この適応型学習機能により、エージェントS2は各アプリケーションに習熟できるようになり、長期的な適応型インテリジェンスとパーソナライズされた自動化の基盤を築くことができます。

このモジュラーアーキテクチャにより、スケーリングと適応も容易になります。基盤モデルまたはエキスパートモデルを搭載した新しいモジュールは簡単に統合、削除、交換できるため、Agent S2 は新しいタスクドメインにすばやく簡単に適応できます。

エージェント S2 の動作中

Google ドライブから画像をダウンロードし、GIMP を使って圧縮する

画像をドキュメントにコピー

画像を GIMP から LibreOffice Writer ドキュメントにコピーし、そのドキュメントをエクスポートします。

image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action

Web 拡張機能のセットアップ

Web エクステンションをセットアップする

image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action

動画字幕を削除

動画から字幕を削除して新しい動画をエクスポートする

image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action
image step: agent s2 in action

取り消し線付き段落

LibreOffice Writer ドキュメントの最後の段落に取り消し線を引いてください

ファイルを整理

タスク:holiday_photos.jpg ファイルを sdk_gphone_x86_64 ストレージエリア内のポッドキャストから Android ファイルシステムの同じ sdk_gphone_x86_64 ストレージエリア内の DCIM に移動します。

すぐに使用できる
同じような方法でコンピューター?

記憶を共有して整理し、タスクをパーソナライズします。