O Agente S da Simular supera os humanos no benchmark OSWorld
O agente de IA atinge 72,6% no OSWorld, excedendo a linha de base humana do benchmark de 72,36%
16 de dezembro de 2025

São Francisco, CA — A Simular, empresa de computadores autônomos, anunciou hoje que sua estrutura de agente aberta Agent S alcançou um Taxa de sucesso de 72,6% em OS World, a principal referência para avaliar agentes multimodais que realizam tarefas reais de computador.
O marco coloca o agente da Simular acima do benchmark desempenho em nível humano de 72,36%, marcando um grande avanço na capacidade da IA de operar computadores reais com confiabilidade semelhante à humana.
Há apenas um ano, a pontuação mais alta no OSWorld girava em torno de 20%. O progresso contínuo melhorou rapidamente o desempenho em todo o campo do agente. O Agente S da Simular é o primeiro a ultrapassar o limite humano, possibilitado em grande parte pelos efeitos de escala de Comportamento Best-of-N (BBoN), um método que melhora o desempenho usando vários agentes e selecionando os melhores entre eles.
“O espaço dos agentes de uso de computadores está avançando tão rapidamente que nem mesmo nós prevíamos que essa inovação chegaria tão cedo”, disse Ang Li, CEO e cofundador da Simular. “Até recentemente, não estava claro se a IA poderia usar um computador de forma confiável da mesma forma que os humanos. Cruzar esse limiar é um momento histórico. Nosso foco agora é tornar essa tecnologia amplamente acessível, desbloqueando casos de uso reais para pessoas reais em computadores reais.”
Esse marco segue a recente rodada de financiamento de 21,5 milhões de dólares da Simular, liderada por Felicis, com a participação da nVentures da Nvidia, da Basis Set Ventures e outras. A Simular também é uma das cinco empresas agentes selecionadas para pilotar o novo da Microsoft Windows 365 para agentes, um ambiente seguro e escalável projetado para automação de IA de nível corporativo.
Em dezembro, a empresa lançou Similar 1.0, o primeiro agente de IA verdadeiramente nativo de desktop para consumidores — um passo em direção à sua missão de libertar totalmente as pessoas do trabalho de informática.
Para saber mais, leia o artigo de pesquisa completo TA eficácia irracional dos agentes de escalabilidade para uso em computadores: https://arxiv.org/abs/2510.02250