Em destaque

Agente S3: Abordando o uso de computadores em nível humano com ampla escala

2 de outubro de 2025

Desde o lançamento de nossa primeira estrutura, o Agente S, com 20,6% no OSWorld, há apenas um ano, avançamos constantemente na fronteira dos agentes de uso de computadores. O agente S2 elevou o estado da arte para 48,8%, e agora O Agente S3 eleva o desempenho para 69,9%, aproximando-se do desempenho em nível humano em 72%.

Desde esse trabalho, o Agente S continuou avançando rapidamente. No último anúncio da Simular, o Agente S alcançou um Taxa de sucesso de 72,6% no OSWorld, superando os benchmarks Linha de base humana de 72,36%.


O Agente S3 se baseia diretamente na base do Agente S2. Ao simplificar a estrutura e introduzir um agente de codificação nativo, melhoramos o desempenho para 62,6% no OSWorld, estabelecendo um novo estado da arte. Além disso, o Agent S3 apresenta o primeiro estrutura de ampla escala para agentes de uso de computador através Comportamento Best-of-N (BBoN). Em vez de depender da execução de um único agente, o BBon seleciona entre várias implementações e seleciona o melhor resultado. Essa abordagem gera ganhos de desempenho escaláveis, aumentando a precisão de 62,6% para 69,9% e mostrando como as estruturas de agentes podem melhorar simplesmente escalando com execuções de agentes mais diversas.

Novo desempenho de última geração, quase ao nível humano

*Agente S3 usando Behavior Best-of-N

No OSWorld, o Agente S3 sozinho atinge 62,6% na configuração de 100 etapas, já superando o estado da arte anterior de 61,4% (Claude Sonnet 4.5). Com a adição do Behavior Best-of-N, o desempenho sobe ainda mais, para 69,9%, levando os agentes que usam o computador a apenas alguns pontos de precisão no nível humano (72%).

Para generalização entre ambientes, o Agente S3 também mostra grandes melhorias ao aplicar o Behavior Best-of-N. No WindowsAgentArena, a precisão aumenta de 50,2% usando somente o Agente S3 para 56,6% ao selecionar entre vários lançamentos. Da mesma forma, no AndroidWorld, o desempenho melhora de 68,1% para 71,6%.

Gargalo do CUA: alta variação em tarefas de longo horizonte

Agentes diferentes são executados com sucesso de alta variação. O BBon pode examinar as corridas e escolher a melhor.

Os agentes de uso do computador (CUAs) prometem um futuro em que o software funciona sozinho, reservando passagens, preenchendo formulários e navegando em aplicativos para que você não precise. Mas, no momento, até mesmo os melhores CUAs tropeçam quando as tarefas ficam longas e confusas. Um clique perdido, uma resposta tardia ou um pop-up inesperado podem fazer com que toda a corrida saia do curso. Pequenos erros se agravam e o que deveria ter sido uma automação suave se transforma em frustração.

Esse é o principal gargalo: alta variância. O mesmo agente pode acertar uma tarefa uma vez e depois estragá-la completamente na próxima vez. Essa inconsistência torna os CUAs imprevisíveis e mostra por que a confiabilidade em fluxos de trabalho complexos e cotidianos continua sendo um desafio.

Agentes de escalabilidade para uso em computadores

Comportamento Best-of-N: escalabilidade por meio de várias implementações

O principal desafio dos agentes de escalabilidade é que as implementações de execução única permanecem inconsistentes, mesmo com modelos mais fortes. O Agent S3 apresenta Comportamento Best-of-N (BBoN), que resolve isso executando várias implementações em paralelo e selecionando a melhor.

Nossa abordagem começa gerando fatos. As execuções de agentes brutos contêm uma grande quantidade de detalhes passo a passo, muitos dos quais são irrelevantes ou redundantes. Ao gerar fatos, convertemos essas corridas ruidosas em declarações concisas sobre o que aconteceu em cada etapa, focando apenas nas informações que são diretamente importantes para o sucesso da tarefa. A concatenação desses fatos produz uma narrativa de comportamento, que é um resumo claro do que um agente fez em cada etapa, tornando as corridas do agente mais interpretáveis e fáceis de comparar.

Com as narrativas de comportamento implementadas, aplicamos a seleção de juízes para determinar qual implementação melhor completa a tarefa. Em vez de comparar os resultados brutos, o juiz baseia sua decisão nos fatos de cada narrativa de comportamento. Ao citar esses fatos em todos os lançamentos, o juiz pode raciocinar comparativamente sobre qual tentativa é mais eficaz e, em última análise, seleciona a melhor opção.

Melhorando a estrutura: design mais simples, maior flexibilidade

O Agente S2 usou uma configuração hierárquica de gerente-trabalhador, mas isso adicionou uma sobrecarga desnecessária. O Agente S3 simplifica a estrutura removendo essa hierarquia e introduzindo um agente de codificação nativo que pode gerar e executar código. Isso torna as soluções mais diversificadas, abrangendo tarefas de código e de GUI, e também mais confiáveis. Juntos, esses refinamentos aumentaram o desempenho em cerca de 13%, elevando o Agente S3 para 62,6% no desempenho de agente único.

Escalabilidade com execuções de agentes

À medida que o número de execuções de agentes aumenta no OSWorld, descobrimos que o desempenho melhora gradualmente. Com 10 corridas, alcançamos o melhor desempenho com o GPT-5 em 69,9% e com o GPT-5 Mini em 60,2%.

Pronto para usar seu
computador de forma semelhante?

Compartilhe e organize sua memória e personalize suas tarefas.