Na segunda-feira, a Anthropic anunciou o Opus 4.5, a versão mais recente de seu modelo principal. É o último da série de modelos 4.5 da Anthropic a ser lançado, após o lançamento do Sonnet 4.5 em setembro e do Haiku 4.5 em outubro.
Como esperado, a nova versão do Opus tem desempenho de ponta em uma série de benchmarks, incluindo benchmarks de codificação (SWE-Bench e Terminal-bench), uso de ferramentas (tau2-bench e MCP Atlas) e resolução geral de problemas (ARC-AGI 2, GPQA Diamond).
Notavelmente, o Opus 4.5 é o primeiro modelo a obter uma pontuação superior a 80% no SWE-Bench verificado, um respeitado benchmark de codificação.
A Anthropic também enfatizou as capacidades de uso de computador e planilhas do Opus, e lançou uma série de produtos paralelos para mostrar como o modelo se sai nesses ambientes. Junto com o Opus 4.5, a Anthropic disponibilizará mais amplamente seus produtos Claude para Chrome e Claude para Excel — anteriormente em fase piloto. A extensão para Chrome estará disponível para todos os usuários Max, enquanto o modelo focado no Excel estará disponível para usuários Max, Team e Enterprise.
O Opus 4.5 também vem com melhorias de memória para operações de contexto longo, o que exigiu mudanças significativas na forma como o modelo gerencia sua memória.
‘Há melhorias que fizemos na qualidade geral de contexto longo no treinamento com o Opus 4.5, mas as janelas de contexto não serão suficientes por si só’, disse Dianne Na Penn, chefe de gerenciamento de produto de pesquisa da Anthropic, à TechCrunch. ‘Saber quais detalhes lembrar é realmente importante para complementar o simples fato de ter uma janela de contexto mais longa.’
Essas mudanças também permitiram um recurso de ‘chat interminável’ há muito solicitado para usuários pagos do Claude, que permitirá que as conversas prossigam sem interrupção quando o modelo atingir sua janela de contexto. Em vez disso, o modelo comprimirá sua memória de contexto sem alertar o usuário.
Muitas das atualizações são feitas com foco em casos de uso de agentes, particularmente cenários em que o Opus atua como um agente principal comandando um grupo de subagentes movidos a Haiku. Gerenciar essas tarefas requer um forte comando da memória de trabalho, que é onde as melhorias de memória descritas por Penn realmente mostram seu valor.
‘É aqui que fundamentos como memória se tornam realmente importantes’, diz Penn, ‘porque o Claude precisa ser capaz de explorar bases de código e documentos grandes, e também saber quando retroceder e verificar algo novamente.’
O Opus 4.5 enfrentará uma competição acirrada de outros modelos de fronteira lançados recentemente, mais notavelmente o GPT 5.1 da OpenAI (lançado em 12 de novembro) e o Gemini 3 do Google (lançado em 18 de novembro).
Caçadores de Tecnologia Mantenha-se atualizado com as últimas novidades tecnológicas! Análises, tutoriais e lançamentos de celulares, TVs e mais. Junte-se aos Caçadores de Tecnologia!