Análise técnica do Agent S2
1 de abril de 2025
Construir um agente que possa usar um computador como um humano continua sendo um dos marcos mais formidáveis no caminho da inteligência artificial geral. Desde a execução de tarefas digitais abertas até a navegação em aplicativos desconhecidos por meio de GUIs, o espaço do problema é vasto, barulhento e altamente dinâmico. Hoje, temos o prazer de lançar o artigo técnico para Agente S2, uma estrutura modular que estabeleceu um novo desempenho de última geração em vários benchmarks de uso de computadores.
Há duas semanas, abrimos o código do Agente S2. Agora, com o lançamento do documento técnico, estamos entusiasmados em fornecer uma visão mais aprofundada das principais ideias e da arquitetura por trás do sistema. Para uma explicação mais fácil para iniciantes, confira nossa postagem anterior no blog.
Visão geral do Agente S2: inteligência composicional
O Agent S2 foi projetado com base em uma ideia simples, mas poderosa: em vez de confiar em um único modelo monolítico para planejar, agir e fundamentar suas interações com a tela, dividimos essas responsabilidades entre módulos generalistas e especializados. Essa configuração de composição imita a forma como os operadores humanos especializados trabalham: planejadores de alto nível, executores de baixo nível e especialistas em interface trabalhando em conjunto.

Principais características do Agente S2:
Mistura de aterramento (MoG): Usa um conjunto de especialistas em embasamento (visual, textual, estrutural) para localizar com precisão os elementos da GUI.
Planejamento hierárquico proativo (PHP): Refina dinamicamente seus planos com base no feedback do ambiente, em vez de seguir um script fixo.
Resultados de referência: estado da arte em todas as plataformas
O Agente S2 define um novo padrão no benchmark OSWorld, amplamente usado:

Também mostra uma forte generalização:
Windows Agent Arena: +52,8% de melhoria em relação ao SOTA anterior
Mundo Android: +16,5% de melhoria em relação ao SOTA anterior

.webp)
Inovações de design: MoG + PHP
A maioria dos agentes falha devido à falta de base ou ao planejamento rígido. O agente S2 aborda os dois:
Mistura de aterramento: Encaminha cada interação para o especialista mais adequado. Por exemplo, para planilhas, use um especialista em aterramento estrutural; para botões, use aterramento visual. A dissociação da base do planejamento essencialmente fatora o problema geral em dois subproblemas (relativamente) mais simples, que se alinham melhor com a distribuição de treinamento dos modelos atuais de raciocínio geral e dos modelos especializados de fundamentação visual.
Planejamento proativo: Refina continuamente as metas secundárias e os ajusta com base em novas observações, imitando como um ser humano reavaliaria um plano quando algo mudasse.

Dimensionamento e recuperação de erros
Com horizontes mais longos, o Agent S2 se adapta melhor do que os modelos monolíticos. Ele se adapta rapidamente e se autocorrige quando suas ações iniciais não produzem o efeito desejado.

Generalizando além do desktop: resultados do Android
Embora o Agente S2 tenha sido criado principalmente para agentes de desktop, ele se generaliza bem para ambientes móveis:

Conclusão: agentes modulares, progresso real
O Agente S2 mostra que a composicionalidade não é apenas uma filosofia de design elegante — é uma estratégia vencedora para criar agentes que possam usar computadores de forma robusta, como humanos. Acreditamos que este trabalho nos aproxima da AGI e abre novas direções para pesquisas em planejamento, embasamento e coordenação multimodal.
Pronto para usar seu
computador de forma semelhante?
Compartilhe e organize sua memória e personalize suas tarefas.