IA similar

Análise técnica do Agent S2

Uma estrutura composicional generalista-especialista para agentes de uso de computadores

1 de abril de 2025

Construir um agente que possa usar um computador como um humano continua sendo um dos marcos mais formidáveis no caminho da inteligência artificial geral. Desde a execução de tarefas digitais abertas até a navegação em aplicativos desconhecidos por meio de GUIs, o espaço do problema é vasto, barulhento e altamente dinâmico. Hoje, temos o prazer de lançar o artigo técnico para Agente S2, uma estrutura modular que estabeleceu um novo desempenho de última geração em vários benchmarks de uso de computadores.

Há duas semanas, abrimos o código do Agente S2. Agora, com o lançamento do documento técnico, estamos entusiasmados em fornecer uma visão mais aprofundada das principais ideias e da arquitetura por trás do sistema. Para uma explicação mais fácil para iniciantes, confira nossa postagem anterior no blog.
‍

Visão geral do Agente S2: inteligência composicional

O Agent S2 foi projetado com base em uma ideia simples, mas poderosa: em vez de confiar em um único modelo monolítico para planejar, agir e fundamentar suas interações com a tela, dividimos essas responsabilidades entre módulos generalistas e especializados. Essa configuração de composição imita a forma como os operadores humanos especializados trabalham: planejadores de alto nível, executores de baixo nível e especialistas em interface trabalhando em conjunto.

Arquitetura do agente S2 combinando planejamento generalista e base especializada.

Principais características do Agente S2:

Mistura de aterramento (MoG): Usa um conjunto de especialistas em embasamento (visual, textual, estrutural) para localizar com precisão os elementos da GUI. 
Planejamento hierárquico proativo (PHP): Refina dinamicamente seus planos com base no feedback do ambiente, em vez de seguir um script fixo.

Resultados de referência: estado da arte em todas as plataformas

O Agente S2 define um novo padrão no benchmark OSWorld, amplamente usado:

Também mostra uma forte generalização:

Windows Agent Arena: +52,8% de melhoria em relação ao SOTA anterior
Mundo Android: +16,5% de melhoria em relação ao SOTA anterior

Taxa de sucesso no OSWorld. O agente S2 supera significativamente os agentes anteriores.

Taxa de sucesso no WindowsAgentArena. O agente S2 supera significativamente os agentes anteriores.

Inovações de design: MoG + PHP

A maioria dos agentes falha devido à falta de base ou ao planejamento rígido. O agente S2 aborda os dois:

Mistura de aterramento: Encaminha cada interação para o especialista mais adequado. Por exemplo, para planilhas, use um especialista em aterramento estrutural; para botões, use aterramento visual. A dissociação da base do planejamento essencialmente fatora o problema geral em dois subproblemas (relativamente) mais simples, que se alinham melhor com a distribuição de treinamento dos modelos atuais de raciocínio geral e dos modelos especializados de fundamentação visual.
Planejamento proativo: Refina continuamente as metas secundárias e os ajusta com base em novas observações, imitando como um ser humano reavaliaria um plano quando algo mudasse.

O agente S2 se autocorrige ao mudar da base visual para a textual.

Dimensionamento e recuperação de erros

Com horizontes mais longos, o Agent S2 se adapta melhor do que os modelos monolíticos. Ele se adapta rapidamente e se autocorrige quando suas ações iniciais não produzem o efeito desejado.

Por que o Agente S2 é bem-sucedido com horizontes mais longos: navegação, interação e correção adaptativas.

Generalizando além do desktop: resultados do Android

Embora o Agente S2 tenha sido criado principalmente para agentes de desktop, ele se generaliza bem para ambientes móveis:

O Agent S2 alcança o estado da arte no benchmark de uso de smartphones AndroidWorld.

Conclusão: agentes modulares, progresso real

O Agente S2 mostra que a composicionalidade não é apenas uma filosofia de design elegante — é uma estratégia vencedora para criar agentes que possam usar computadores de forma robusta, como humanos. Acreditamos que este trabalho nos aproxima da AGI e abre novas direções para pesquisas em planejamento, embasamento e coordenação multimodal.

Confira o código e o papel.

‍

Papel do Agent S2

Repositório de código

Pronto para usar seu
computador de forma semelhante?

Compartilhe e organize sua memória e personalize suas tarefas.

Experimente Sai