リサーチ

SimularのエージェントSはOSWorldベンチマークで人間を上回っています

AIエージェントはOSWorldで72.6％に達し、ベンチマークのヒューマンベースラインである72.36％を上回りました

2025年12月16日

カリフォルニア州サンフランシスコ —自律型コンピューター企業であるSimularは本日、オープンエージェントフレームワークであるAgent Sが次のことを実現したことを発表しました。 72.6% の成功率 オンオズワールドは、実際のコンピュータタスクを実行するマルチモーダルエージェントを評価するための主要なベンチマークです。

このマイルストーンにより、Simularのエージェントがベンチマークのエージェントを上回りました。 72.36% のヒューマンレベルのパフォーマンスこれは、人間のような信頼性で実際のコンピューターを操作するAIの能力に大きな進歩をもたらしました。

ちょうど1年前、OSWorldの最高スコアは約20％でした。継続的な進歩により、エージェント分野全体の業績は急速に向上しました。SimularのAgent Sは、主に以下のスケーリング効果によって実現された、人間の限界値を初めて超えました。ビヘイビア・ベスト・オブ・エン (BBon)は、複数のエージェントを使用し、その中から最適なエージェントを選択することでパフォーマンスを向上させる方法です。

SimularのCEO兼共同創設者であるAng Liは、「コンピューター利用エージェントの分野は急速に進歩しているため、私たちでさえ、このブレークスルーがすぐに実現するとは予想していませんでした」と述べています。「最近まで、AI が人間のように確実にコンピューターを使用できるかどうかは明らかではありませんでした。この限界を超えることは歴史的な瞬間です。私たちが今注力しているのは、このテクノロジーを広く利用できるようにし、実在の人々が実際のコンピューター上で実際の使用事例を解き明かすことです。」

このマイルストーンは、NvidiaのnVentures、Basis Set Venturesなどの参加を得て、フェリシスが主導したSimularの最近の2,150万ドルの資金調達ラウンドに続くものです。Simularは、マイクロソフトの新製品の試験運用対象として選ばれた5社の代理店企業のうちの1つでもあります。エージェント用ウィンドウズ 365は、エンタープライズグレードの AI 自動化向けに設計された、安全でスケーラブルな環境です。

12月、同社は立ち上げました 1.0をシミュレートは、消費者向けの初の真のデスクトップネイティブなAIエージェント。人々をコンピューター労働から完全に解放するという同社の使命に向けた一歩です。

詳細については、リサーチペーパーTの全文をお読みくださいコンピュータ用スケーリングエージェントの不合理な効果: https://arxiv.org/abs/2510.02250

自律型コンピュータを構築しても、人間が置き換えられるわけではありません。それは協力を意味する。

オープンソースの Agent S リポジトリをチェックしてください