特集

Agent S3: ワイドスケーリングによる人間レベルのコンピュータ利用へのアプローチ

2025年10月2日

わずか1年前に最初のフレームワークであるAgent SをOsWorldで20.6%でリリースして以来、私たちはコンピューター利用エージェントの最前線を着実に前進させてきました。エージェント S2 は最先端技術を 48.8% に引き上げました。そして今では エージェント S3 によりパフォーマンスが 69.9% に向上、人間レベルのパフォーマンスは 72% に迫っています。

この作業以降、エージェントSは急速に進歩を続けています。Simularの最新の発表では、エージェントSは次のことを達成しました。 オスワールドでの成功率は 72.6%、ベンチマークを上回る 72.36% のヒト用ベースライン


エージェント S3 は、エージェント S2 の基盤上に直接構築されます。フレームワークを簡素化し、ネイティブコーディングエージェントを導入することで、OSWorld のパフォーマンスが 62.6% に向上し、新たな最先端技術を確立しました。それ以外にも、Agent S3 は最初の機能を導入しました。 コンピュータ使用エージェント向けの広範囲にわたるフレームワーク を通して ビヘイビア・ベスト・オブ・エン (BBon)。BBoN は、エージェントを 1 回実行するのではなく、複数のロールアウトから最適なロールアウトを選択し、最適な結果を選択します。このアプローチにより、スケーラブルなパフォーマンスの向上が可能になり、精度が 62.6% から 69.9% に向上し、エージェントの多様な実行に合わせて拡張するだけでエージェントフレームワークがどのように改善できるかがわかります。

人間に近い新しい最先端パフォーマンス

*ビヘイビアベストオブNを使用したエージェントS3

OSWorldでは、エージェントS3だけで100ステップの設定で62.6%に達し、すでに以前の最新技術である61.4%(クロード・ソネット4.5)を上回っています。Behavior Best-of-N が追加されたことで、パフォーマンスはさらに 69.9% まで上昇し、コンピューターを使用するエージェントの精度は人間並みのわずか数ポイント (72%) 以内に収まりました。

環境全体での汎用化については、Agent S3 でもビヘイビアベストオブNを適用すると大幅な改善が見られます。WindowsAgentArena では、複数のロールアウトから選択することで、エージェント S3 のみを使用した場合の 50.2% の精度が 56.6% に向上しました。アンドロイドワールドでも同様に、パフォーマンスは 68.1% から 71.6% に向上しています。

CUA ボトルネック:長期タスクにおける高分散

異なるエージェントの実行で高い分散成功率が得られた場合、BBonは実行結果を確認して最適なものを選択できます。

コンピュータ・ユース・エージェント (CUA) は、ソフトウェアが自動的に動作し、チケットの予約、フォームへの入力、アプリケーションの操作をユーザーが行う必要のない未来を約束します。しかし今は、最高のCUAでさえ、タスクが長くて乱雑になるとつまずきます。見当違いのクリック、応答の遅れ、または予期しないポップアップによって、実行全体が軌道から外れてしまう可能性があります。小さなミスが重なり、スムーズに自動化できたはずのものがフラストレーションに変わります。

これがコアのボトルネックです。 高分散。同じエージェントが 1 回タスクを完了し、次回はそのタスクを完全に失敗させる可能性があります。この一貫性のなさがCUAを予測不可能にし、複雑で日常的なワークフローにおける信頼性が依然として課題となっている理由がわかります。

コンピュータ用スケーリングエージェント

ビヘイビア・ベスト・オブ・N: 複数のロールアウトによるスケーリング

エージェントのスケーリングにおける主な課題は、より強力なモデルであっても、1回限りのロールアウトに一貫性がないことです。エージェント S3 が導入しました。 ビヘイビア・ベスト・オブ・エン (BBon)複数のロールアウトを並行して実行し、最適なロールアウトを選択することでこれに対処しています。

私たちのアプローチは、事実を生み出すことから始まります。未処理のエージェント実行にはステップごとの詳細が大量に含まれていますが、その多くは関連性がなかったり、冗長だったりします。ファクトを生成することで、こうした騒々しい実行を、各ステップで何が起きたかについての簡潔な記述に変換し、タスクの成功に直接関係する情報のみに焦点を当てます。これらの事実を連結すると、エージェントが各ステップで行ったことを明確にまとめた行動説明が生成され、エージェントの実行がより解釈しやすく、比較しやすくなります。

行動説明が用意できたら、ジャッジセレクションを適用して、どのロールアウトがタスクを最もよく完了するかを判断します。ジャッジは、生のアウトプットを比較する代わりに、それぞれの行動説明に含まれる事実に基づいて判断を下します。審査員は、ロールアウトのあちこちでこれらの事実を引用することで、どの試みが最も効果的かを比較的に推論し、最終的に最適な方法を選択することができます。

フレームワークの改善:よりシンプルなデザイン、より高い柔軟性

エージェントS2はマネージャーとワーカーの階層構成を使用していましたが、これにより不必要なオーバーヘッドが追加されました。エージェント S3 は、この階層を削除し、コードを生成して実行できるネイティブコーディングエージェントを導入することで、フレームワークを合理化しています。これにより、コードと GUI タスクの両方にまたがるソリューションがより多様になり、信頼性も向上します。これらの改良点を合わせると、パフォーマンスは約 13% 向上し、エージェント単体の場合のパフォーマンスは Agent S3 が 62.6% になりました。

エージェント実行によるスケーリング

OSWorldでのエージェント実行数が増えるにつれて、パフォーマンスは徐々に向上することがわかりました。10 回実行した結果、GPT-5 で 69.9%、GPT-5 ミニで 60.2% という最高のパフォーマンスを達成しました。

ヒューマンアライメント

ジャッジがパフォーマンスを改善できるタスク(OSWorldの44%)を調べたところ、ジャッジがタスクの 78.4% を正しく選択していることがわかりました。人間による評価で再確認したところ、ジャッジは実際に 92.8% のタスクで正しく、OsWorldでの実際のパフォーマンスは 76.3% に近いことがわかりました。このことから、私たちのジャッジは人間の好みとうまく一致しており、CUAタスクを評価するための有望なツールとなっています。

すぐに使用できる
同じような方法でコンピューター?

記憶を共有して整理し、タスクをパーソナライズします。