OpenAI lança GPT-5.5, modelo agêntico que opera o computador sozinho de ponta a ponta
Anunciado em 23 de abril de 2026, o GPT-5.5 planeja, usa ferramentas e conclui tarefas de múltiplas etapas sem supervisão passo a passo. Marca 82,7% no Terminal-bench 2.0 e 58,6% no SWE-Bench Pro.
O que aconteceu
A OpenAI anunciou em 23 de abril de 2026 o GPT-5.5, a nova versão de topo da linha ChatGPT, com um posicionamento claro: deixar de ser um modelo que responde comandos e virar um modelo que executa tarefas inteiras. A empresa descreve o GPT-5.5 como capaz de planejar, usar ferramentas e operar software de forma autônoma para concluir tarefas de múltiplas etapas dentro de um computador, sem que o usuário precise gerenciar cada passo.
Na prática, o modelo escreve e depura código, faz pesquisa online, analisa dados, monta documentos e planilhas, opera softwares e transita entre ferramentas até fechar o objetivo. Em vez de o operador pedir "faça X, agora Y, agora Z", ele entrega o objetivo de alto nível e o GPT-5.5 conduz a sequência, faz checagens intermediárias e lida com ambiguidades.
Os números que sustentam o discurso
A OpenAI divulgou marcas de benchmark para sustentar a promessa de autonomia:
- 82,7% de acerto em fluxos complexos de linha de comando (Terminal-bench 2.0).
- 58,6% de efetividade resolvendo problemas reais do GitHub (SWE-Bench Pro).
- Desempenho declarado acima de concorrentes como Claude 4.7 e Gemini 3.1 Pro em programação e cibersegurança.
O modelo chegou primeiro para assinantes ChatGPT Plus, Pro, Business e Enterprise, e ao Codex com janela de 400 mil tokens. A API, com suporte a 1 milhão de tokens, foi prometida para "muito em breve".
O que é IA agêntica e por que isso muda o jogo
A diferença entre um chatbot e um agente é a delegação. O chatbot responde dentro de uma conversa. O agente recebe uma meta e a persegue por conta própria, decidindo quais ferramentas chamar e em que ordem. É a passagem de "assistente que sugere" para "operador que faz".
Em vendas, isso se traduz num agente que recebe um lead, pesquisa a empresa, qualifica, consulta o CRM, monta uma proposta e agenda a reunião. Em atendimento, num agente que abre o chamado, busca o histórico, consulta a base de conhecimento, propõe a resolução e só escala para humano quando detecta risco.
O que muda para o Brasil
O Brasil opera a maior parte da relação comercial dentro do WhatsApp, um canal de mensageria persistente. Um agente com a autonomia do GPT-5.5 ganha contexto contínuo entre conversas e pode encadear ações que antes exigiam um humano costurando sistemas. Plataformas brasileiras de mensageria que já estruturam fluxos com propósito definido tendem a ser o ponto de entrada desse tipo de agente. Vale ver a análise da Take Blip e a análise da Octadesk para entender onde a camada de agente se encaixa no atendimento.
O custo, porém, vai mudar de natureza. Com janela de até 1 milhão de tokens e execução de várias etapas por tarefa, o gasto por interação sobe. Quem for adotar precisa medir custo por tarefa concluída, não por mensagem.
Leitura crítica
Benchmarks de fabricante medem o teto, não o chão. 58,6% no SWE-Bench Pro significa que o modelo erra mais de quatro em cada dez problemas reais de engenharia. Para um agente que executa sozinho, a taxa de erro importa mais do que a de acerto: o que acontece quando ele falha sem supervisão? A recuperação de erro, saber parar e pedir ajuda no momento certo, continua sendo o problema de desenho não resolvido da IA agêntica.
Para times de vendas e atendimento no Brasil, a recomendação é começar por tarefas de baixo risco e alto volume (qualificação, triagem, follow-up), manter humano no circuito nas etapas que tocam dinheiro ou contrato, e exigir trilha de decisão auditável. A autonomia é real, mas a maturidade de governança ainda não acompanhou o salto de capacidade.