Agente S2: An Open,
Estrutura modular e escalável para agentes de uso de computadores
Agentes de uso de computadorsão agentes autônomos de IA que observam, raciocinam e realizam tarefas em nome de usuários humanos, interagindo diretamente com interfaces gráficas de usuário (GUI), incluindo desktops, dispositivos móveis, navegadores e vários softwares. Eles funcionam como intermediários inteligentes entre usuários humanos e suas ferramentas digitais da maneira mais intuitiva: controle de mouse e teclado, assim como um humano. Essa capacidade humana de navegar e controlar software marca um salto fundamental na IA, preparando o cenário para a próxima era de progresso tecnológico impulsionado por agentes autônomos de uso de computadores.
Hoje, temos o prazer de anunciar nosso próximo avanço em agentes de uso de computador: Agente S2, a segunda geração da nossa estrutura de agentes. Com base em nossos sucessos iniciais, Agente S2 oferece desempenho e modularidade ainda maiores, aproveitando modelos básicos de ponta e modelos especializados. Agente S2 alcança novos resultados de última geração, escala bem com mais etapas e, o mais importante, é totalmente aberto!
Desempenho de última geração

O Agente S2 demonstra um uso superior do computador e do telefone, visto por avanços significativos nos principais desafios de benchmark.
Para uso em computador, o Agente S2 fornece resultados de última geração no OSWorld em avaliações de 15 e 50 etapas (duas configurações mais práticas para uso no mundo real), provando que nossa estrutura de agente realiza ações mais precisas e gera o melhor plano para uma tarefa, ao mesmo tempo em que é capaz de se corrigir e melhorar em um longo horizonte. Notavelmente, o Agente S2 atinge 34,5% de precisão na avaliação de 50 etapas, superando o SOTA anterior (OpenAI CUA/Operator com 32,6%), demonstrando como as estruturas do agente podem escalar além de um único modelo treinado.
Para uso em smartphones, o Agente S2 atinge 50% de precisão no AndroidWorld, superando o SOTA anterior (UI-TARS com 46,8%), demonstrando a generalização das estruturas do agente em diferentes ambientes de interface visual.

Depois desta postagem no blog, obtivemos resultados mais fortes no AndroidWorld enquanto preparávamos nosso artigo. Atualizamos essa tabela para refletir o desempenho mais recente. Consulte o documento para obter detalhes abrangentes.
Por que as estruturas modulares são importantes: inspiração do cérebro humano
O cérebro humano é um exemplo notável de design modular — uma rede de componentes especializados trabalhando em uníssono. Diferentes regiões se destacam em tarefas distintas: o hemisfério esquerdo impulsiona o pensamento analítico, o direito estimula a criatividade, enquanto as áreas motoras e sensoriais gerenciam a coordenação física. Essa estrutura modular, otimizada para colaboração, inspira a forma como abordamos o design de agentes de IA para uso em computadores.

Na Simular, acreditamos que os agentes de IA mais eficazes devem seguir um princípio semelhante: estruturas modulares que orquestram perfeitamente diversos modelos, em vez de depender de um único sistema monolítico. Nossa estrutura inicial de agentes, Agente S, lançado em 11 de outubro de 2024, personifica essa visão. Com o planejamento hierárquico aprimorado pela experiência como principal, o Agente S obteve um desempenho geral melhor do que qualquer modelo e estrutura da época.
Nossa pesquisa mais recente mostra ainda que uma estrutura modular bem projetada, mesmo com modelos individuais abaixo do ideal, pode superar o melhor modelo autônomo. Por quê? Porque modelos diferentes se destacam em diferentes áreas, cada um com pontos fortes e fracos únicos. Um robusto estrutura otimiza a orquestração entre esses módulos, garantindo que cada modelo contribua onde tem melhor desempenho, levando a resultados gerais superiores. No cenário em rápida evolução dos modelos de fundação, modularidade é fundamental. Nossa estrutura de agentes de última geração, Agente S2, alcança uma percepção, planejamento e controle refinado significativamente melhores em virtude de sua modularidade e flexibilidade aprimoradas.
Agente S2: Como funciona

O Agent S2 foi criado para lidar com tarefas digitais complexas por meio de uma abordagem modular e escalável. Sua estrutura enfatiza quatro princípios fundamentais de design:
Planejamento hierárquico proativo
O agente S2 segue uma hierarquia natural de tarefas, combinando modelos especializados para execução de baixo nível com modelos generalizados para planejamento de alto nível. Tarefas de baixo nível, como seleção de elementos de interface de usuário ou destaque de texto, exigem alta precisão e conhecimento específico do domínio, enquanto tarefas de alto nível exigem maior adaptabilidade e supervisão estratégica. Além disso, um avanço importante no Agente S2 é sua mudança do planejamento reativo ao proativo. Em vez de replanejar somente após encontrar erros, o que exigiria mais etapas para retroceder e poderia gerar mais erros, o Agente S2 atualiza dinamicamente seus planos após cada subtarefa. Essa abordagem proativa melhora a adaptabilidade às mudanças em tempo real, a continuidade de uma subtarefa para a próxima e a otimização das etapas futuras.
Base visual para interação precisa
O Agent S2 alcança uma interação de alta precisão com interfaces gráficas de usuário (GUIs) por meio de modelos de aterramento visual especializados. Ao contrário de seu antecessor, que dependia de árvores de acessibilidade para entender a interface do usuário, O Agente S2 opera somente com capturas de tela brutas como entrada., eliminando a necessidade de dados estruturados de acessibilidade. Ao delegar a compreensão visual a modelos dedicados, o Agente S2 pode localizar e manipular com precisão elementos da interface do usuário, como botões, texto, imagens e células, permitindo um controle refinado que antes era limitado por restrições de acessibilidade.
Interface agente-computador com módulos especializados
O Agente S2 aprimora sua Interface Agente-Computador (ACI) transferindo tarefas complexas e de baixo nível, como realce de texto, para módulos especializados especializados. Isso reduz a carga cognitiva nos modelos básicos, permitindo que eles se concentrem exclusivamente no planejamento de alto nível e na tomada de decisões estratégicas.
Mecanismo de memória agente
O Agente S2 usa um mecanismo de memória de aprendizado contínuo que permite que ele evolua com a experiência, melhorando a eficiência ao longo do tempo. A experiência de tarefas concluídas anteriormente é mantida, permitindo que o Agente S2 relembre ações anteriores e refine estratégias futuras com base em sucessos e fracassos históricos. Esse recurso de aprendizado adaptativo permite que o Agente S2 se torne mais proficiente com cada aplicativo, criando uma base para inteligência adaptativa de longo prazo e automação personalizada.
Essa arquitetura modular também facilita o dimensionamento e a adaptação. Novos módulos baseados em modelos básicos ou especializados podem ser facilmente integrados, removidos ou trocados, permitindo que o Agente S2 se adapte rapidamente a novos domínios de tarefas com facilidade.
Agente S2 em ação
Uso do computador
Baixe uma imagem do Google Drive e use o GIMP para compactá-la





























Copiar imagem para o documento
Copie uma imagem do GIMP para um documento do LibreOffice Writer e, em seguida, exporte o documento
























Configurar extensão da Web
Configurar uma extensão da web




























Remover legendas de vídeo
Remover legendas de um vídeo e exportar o novo vídeo





















Calcule o lucro
Calcular o lucro em uma planilha do LibreOffice Calc
.webp)












Parágrafo tachado
Raspe o último parágrafo em um documento do LibreOffice Writer
.webp)


Agent S2 em seu smartphone
Preencher formulários
Tarefa: Vá para a nova tela de contato e insira os seguintes detalhes: Nome: Grace, Sobrenome: Taylor, telefone: 799-802-1530, Etiqueta telefônica:
Trabalho. NÃO clique em salvar.










Organize arquivos
Tarefa: Mova o arquivo holiday_photos.jpg de Podcasts na área de armazenamento sdk_gphone_x86_64 para o DCIM na mesma área de armazenamento sdk_gphone_x86_64 no sistema de arquivos Android.

















Pronto para usar seu
computador de forma semelhante?
Compartilhe e organize sua memória e personalize suas tarefas.