Três Modelos, Uma Semana: Separando Sinal do Ruído em Fevereiro de 2026

Na primeira quinzena de fevereiro de 2026, três empresas que investem coletivamente mais de US$ 50 bilhões por ano em pesquisa de IA lançaram modelos de fronteira em sequência. OpenAI com GPT-5.3-Codex e Codex-Spark. Google DeepMind com Gemini 3 Deep Think. Anthropic com Claude Opus 4.6.

O ciclo de notícias tratou cada lançamento como evento isolado. Twitter celebrou, LinkedIn compartilhou, newsletters resumiram. Em menos de dez dias, a quantidade de informação publicada sobre esses modelos excedeu a capacidade de qualquer pessoa razoável de processar.

Este artigo faz o trabalho que o ciclo de notícias não faz: separar, modelo por modelo, o que é avanço verificável do que é marketing competitivo. E — mais importante — o que qualquer dessas coisas significa para quem opera IA em ambiente corporativo.

OpenAI: Dois Modelos, Duas Apostas

GPT-5.3-Codex (5 de fevereiro)

Os fatos. GPT-5.3-Codex é a fusão de dois modelos anteriores — GPT-5.2-Codex (especialista em código) e GPT-5.2 (raciocínio geral) — em um modelo unificado, 25% mais rápido que seus predecessores. A promessa é simples: o melhor de cada componente, sem a latência de coordenar modelos separados.

O modelo vai além de código. A OpenAI enfatiza capacidades em apresentações, planilhas e PRDs — sinal claro de que o escritório inteiro, não apenas o terminal, é o destino. Disponível nos planos pagos do ChatGPT, com mais de 1 milhão de desenvolvedores já usando o app Codex no macOS. Uso dobrou desde dezembro de 2025.

O que é hype. Os benchmarks publicados pela OpenAI merecem contexto. SWE-Bench Pro a 56,8% e Terminal-Bench a 75,1% são números impressionantes — mas medidos no harness próprio da OpenAI, com configurações que não permitem comparação direta com resultados de concorrentes. Quando a OpenAI reporta um número e a Anthropic reporta outro no mesmo benchmark, os ambientes de execução são diferentes. Os números não dialogam.

A narrativa de que GPT-5.3-Codex “se construiu sozinho” — versões anteriores debugaram o pipeline de treinamento — é tecnicamente verdadeira e estrategicamente exagerada. É engenharia recursiva, não magia. Toda grande empresa de tecnologia usa versões anteriores de seus produtos no desenvolvimento de versões posteriores.

O que é válido. A unificação de raciocínio e execução de código num modelo só é avanço real. Reduz atrito operacional. Menos chamadas de API, menos orquestração, menos pontos de falha. Para times que já operam no ecossistema OpenAI, a migração é direta. O app Codex no macOS como centro de comando para agentes — com adoção demonstrada por mais de 1 milhão de desenvolvedores — é evidência concreta de product-market fit.

GPT-5.3-Codex-Spark (12 de fevereiro)

Os fatos. Um modelo menor, projetado para velocidade. Mais de 1.000 tokens por segundo, rodando no Cerebras Wafer Scale Engine 3 — parceria que envolve mais de US$ 10 bilhões em investimento. Contexto de 128K tokens. Preview disponível para assinantes do ChatGPT Pro.

Detalhe que merece atenção: primeira classificação “High capability” em cibersegurança atribuída pela própria OpenAI a um de seus modelos.

O que é hype. A velocidade bruta — 1.000+ tokens por segundo — é chamativa, mas o número isolado diz pouco. Velocidade sem acurácia é desperdício mais rápido. A parceria com Cerebras, embora tecnicamente significativa, é apresentada como se fosse democratização de acesso. Na prática, o preview está restrito a assinantes Pro. A “democratização” tem um paywall.

A classificação em cibersegurança vem da própria OpenAI. Sem avaliação independente publicada, é auto-certificação.

O que é válido. A existência de Codex-Spark sinaliza uma estratégia importante: modelos menores e especializados para tarefas que exigem latência baixa. Nem toda tarefa precisa do modelo mais capaz. Algumas precisam do modelo mais rápido. A diferenciação entre “modelo pensador” (GPT-5.3-Codex) e “modelo veloz” (Codex-Spark) é maturidade arquitetural, não marketing.

Para operações que demandam respostas em tempo real — debugging interativo, sugestões inline, automações de fluxo de trabalho — latência é o gargalo real. Um modelo que resolve 80% dos problemas em um décimo do tempo pode valer mais que um modelo que resolve 90% em dez vezes mais tempo.

Google DeepMind: Gemini 3 Deep Think

O Modelo Que Quase Ninguém Cobriu Direito

Os fatos. Gemini 3 Deep Think é o modo de raciocínio especializado do Google — o que a pesquisa chama de “Sistema 2”: pensamento lento, iterativo e multi-hipótese. Não é um modelo novo no sentido convencional. É uma configuração de raciocínio profundo dentro da família Gemini 3.

Os benchmarks são, à primeira vista, os mais impressionantes da safra:

Humanity’s Last Exam: 48,4%
ARC-AGI-2: 84,6% (verificado pelo ARC Prize — avaliação externa, não auto-reportada)
Codeforces: 3455 Elo
Medalhas de ouro em IMO, IPhO e IChO (Olimpíadas Internacionais de Matemática, Física e Química)
CMT-Benchmark: 50,5%

Dois resultados concretos chamam atenção. O modelo encontrou uma falha lógica num paper revisado por pares da Universidade Rutgers. E otimizou condições de crescimento de cristais num laboratório da Duke University.

Disponível no app Gemini para assinantes do AI Ultra (US$ 20/mês) e via API para pesquisadores e empresas selecionados. Gemini 3 Pro — a versão operacional, não Deep Think — custa US$ 2/US$ 12 por milhão de tokens.

O que é hype. O Google historicamente domina benchmarks acadêmicos e depois luta para transformar resultados de pesquisa em produtos operacionais. Gemini 1 foi lançado com controvérsias sobre demonstrações editadas. Gemini 2 melhorou, mas a adoção corporativa ficou atrás do ChatGPT e do Claude.

Os números em olimpíadas e competições são genuinamente impressionantes — e genuinamente irrelevantes para 99% dos casos de uso corporativos. Nenhuma empresa precisa de um modelo que ganha medalha de ouro em Física. Empresas precisam de modelos que processem contratos, analisem dados e automatizem fluxos de trabalho com consistência.

A verificação do ARC Prize para ARC-AGI-2 é ponto positivo — avaliação externa é mais crível que auto-reportagem. Mas ARC-AGI-2 mede abstração visual, não produtividade empresarial.

O que é válido. O posicionamento do Google é distinto e honesto: Deep Think não é para todos. É para ciência, pesquisa e engenharia de ponta. A descoberta de falha lógica num paper revisado por pares e a otimização de crescimento de cristais são exatamente o tipo de resultado que justifica o modelo — aplicações onde “pensamento lento” produz valor que “pensamento rápido” não consegue.

Para empresas que operam em P&D intensivo — farmacêuticas, materiais avançados, engenharia complexa —, Deep Think pode ser a ferramenta mais relevante dos três lançamentos. Não pelo benchmark. Pelo tipo de problema que resolve.

O preço do Gemini 3 Pro a US$ 2/US$ 12 é agressivo. Para operações que usam roteamento multi-modelo — modelo capaz para tarefas complexas, modelo econômico para tarefas rotineiras —, Gemini 3 Pro pode ser a camada de custo baixo que viabiliza a economia da operação.

Anthropic: Claude Opus 4.6

Os fatos. Opus 4.6 chegou em 5 de fevereiro com uma janela de contexto de 1 milhão de tokens — medida pelo MRCR v2 a 76%, contra 18,5% do Sonnet 4.5 no mesmo teste. Agent Teams no Claude Code. Adaptive thinking com controles de esforço (low/medium/high/max). Integração com PowerPoint.

Benchmarks selecionados: Terminal-Bench 2.0 a 65,4%, GDPval-AA a 1606 Elo (+144 pontos sobre GPT-5.2), ARC-AGI-2 a 68,8% (dobrou de 37,6%), BigLaw Bench a 90,2%. Em cibersegurança, superou Claude 4.5 em 38 de 40 investigações conduzidas pelo NBIM.

Preço: US$ 5/US$ 25 por milhão de tokens.

Os números de mercado ao redor do lançamento: queda de US$ 285 bilhões em ações de empresas de software. Claude Code alcançou US$ 1 bilhão em run rate. A Anthropic levantou US$ 10 bilhões a uma avaliação de US$ 350 bilhões.

O que é hype. A janela de contexto de 1 milhão de tokens é impressionante no papel. Na prática, a maioria dos workflows corporativos não opera em contextos dessa magnitude. Processar um codebase inteiro numa sessão é possibilidade técnica, não necessidade operacional para a maioria das organizações. E o custo escala linearmente com o tamanho do contexto — 1 milhão de tokens de entrada custa US$ 5. Para operações frequentes, isso se acumula.

A comparação com GPT-5.2 (não GPT-5.3-Codex) nos benchmarks é legítima — na data do lançamento, o GPT-5.3-Codex ainda não existia. Mas gera uma assimetria: a Anthropic compara com a geração anterior do concorrente, enquanto o leitor assume comparação com a geração atual.

A queda de US$ 285 bilhões em ações de software é frequentemente citada como “prova” do impacto do Opus 4.6. Correlação temporal não é causalidade. O mercado de software já vinha sob pressão por múltiplos fatores.

O que é válido. Agent Teams é o recurso mais consequente do lançamento, e o que recebeu menos cobertura. A capacidade de coordenar múltiplos agentes especializados — divisão de trabalho em tarefas complexas — é o paradigma de orquestração que distingue a abordagem da Anthropic. Não um modelo que faz tudo. Vários modelos que colaboram.

Adaptive thinking com controles de esforço resolve um problema real: nem toda tarefa exige raciocínio profundo. A possibilidade de configurar “low” para tarefas simples e “max” para tarefas críticas permite otimizar o custo por operação. É governança de recursos computacionais no nível da chamada de API.

BigLaw Bench a 90,2% é relevante para um segmento específico. Cibersegurança superior em 38/40 investigações, conduzidas por avaliador externo (NBIM), é evidência sólida. Claude Code a US$ 1 bilhão em run rate é product-market fit demonstrado, não projetado.

O Que Os Três Lançamentos Revelam Juntos

Vista individualmente, cada empresa conta a história que mais a favorece. Vista em conjunto, a semana revela cinco padrões que importam mais que qualquer modelo individual.

1. Paridade funcional é o novo normal

Os três modelos são excelentes. Nenhum é uniformemente superior. OpenAI vence em velocidade e unificação. Google vence em raciocínio profundo e custo baixo. Anthropic vence em contexto longo e orquestração de agentes. A margem entre eles é contextual — depende do problema, não do press release.

Para decisores, isso significa que a pergunta “qual modelo é melhor?” está definitivamente ultrapassada. A pergunta correta é: “para qual tarefa específica, com quais restrições?“

2. A guerra de benchmarks perdeu utilidade

Cada empresa benchmarkeia a si mesma, no próprio harness, comparando com o baseline que mais a favorece. Nenhum benchmark publicado por um fornecedor sobre seu próprio produto deveria informar decisão de compra.

O único benchmark que importa é o seu: teste no seu ambiente, com seus dados, nos seus problemas. A infraestrutura interna de avaliação é mais valiosa que qualquer número publicado por qualquer fornecedor.

3. A diferenciação real é arquitetural

OpenAI aposta em fusão — combinar capacidades num modelo unificado. Google aposta em profundidade — pensamento lento e iterativo. Anthropic aposta em orquestração — agentes coordenados. São filosofias diferentes para problemas diferentes. A escolha certa depende de como sua organização trabalha, não de qual empresa tem a melhor equipe de marketing.

4. Preço virou dimensão competitiva séria

Gemini 3 Pro a US$ 2/US$ 12. Opus 4.6 a US$ 5/US$ 25. Codex-Spark otimizado para latência mínima. A corrida deixou de ser apenas por capacidade e passou a incluir economia operacional. Para quem opera IA em escala — milhares de chamadas por dia —, a diferença entre US$ 2 e US$ 5 por milhão de tokens de entrada é multiplicada por volume. Roteamento multi-modelo — usar o modelo certo para cada tipo de tarefa — pode reduzir custos em 70-80%.

5. Cibersegurança é o campo de batalha silencioso

OpenAI atribuiu a Codex-Spark sua primeira classificação “High capability” em cibersegurança. Anthropic demonstrou superioridade em 38/40 investigações. Quando seus modelos têm acesso a código, documentos e sistemas internos — e eles terão —, a postura de segurança do fornecedor é critério de seleção, não feature de marketing.

A Realidade Que Nenhum Press Release Menciona

Enquanto as três empresas celebram benchmarks, o cenário real da IA corporativa conta uma história mais sóbria.

89% das empresas usam IA em alguma forma. Apenas 6% implementaram IA agêntica. A distância entre “estamos usando ChatGPT” e “temos agentes autônomos em produção” é um abismo operacional que nenhum modelo novo fecha sozinho.

66% reportam ganhos de produtividade. Apenas 20% reportam crescimento de receita. IA está tornando processos existentes mais rápidos. Ainda não está criando valor novo na maioria das organizações.

83% dos líderes de IA reportam preocupações graves com segurança e governança — um aumento de 8 vezes em dois anos. Quanto mais potentes os modelos, mais urgente o problema de controle.

Esses números revelam uma verdade desconfortável: para a maioria das organizações, o gargalo não é o modelo. É a infraestrutura ao redor dele. Qualidade de dados. Governança. Processos de avaliação. Integração com sistemas existentes. Treinamento de equipes.

Trocar GPT-5.2 por GPT-5.3-Codex não resolve governança ruim. Adotar Gemini 3 Deep Think não compensa dados desorganizados. Implementar Opus 4.6 não substitui processos de avaliação inexistentes.

O modelo é o componente mais fácil de trocar. Tudo ao redor dele é o que determina se você extrai valor ou desperdiça orçamento.

O Que Isso Significa Para Você

Sete recomendações derivadas da análise dos três lançamentos.

1. Construa capacidade de avaliação interna, não opinião sobre fornecedores. Os modelos mudam a cada trimestre. Sua capacidade de testar modelos nos seus problemas específicos tem valor permanente. Nenhum benchmark publicado substitui isso.

2. Adote roteamento multi-modelo. Nenhum fornecedor será o melhor em tudo. Use Gemini 3 Pro para tarefas de alto volume e baixa complexidade. Use Opus 4.6 ou GPT-5.3-Codex para tarefas que exigem raciocínio profundo. Use Codex-Spark para respostas em tempo real. Reduza custos em 70-80% sem sacrificar qualidade.

3. Invista na camada de integração, não na escolha do modelo. Protocolos como o MCP, APIs padronizadas, camadas de abstração — a arquitetura que permite trocar ou combinar modelos é mais valiosa que qualquer modelo individual. É o que protege seu investimento quando o cenário muda.

4. Resolva seus problemas de dados antes de resolver sua escolha de modelo. Nenhum modelo de fronteira compensa dados fragmentados, mal documentados ou inacessíveis. A qualidade do seu contexto determina a qualidade da resposta — independentemente de qual modelo você usa.

5. Meça em produção, não em laboratório. Issues resolvidas. Tempo economizado. Erros evitados. Decisões melhoradas. Receita gerada. Essas métricas justificam investimento. Benchmarks justificam comunicados de imprensa.

6. Trate segurança como critério eliminatório. Se um fornecedor não consegue demonstrar sua postura de segurança com evidência — não com promessas —, elimine-o da lista. Seus modelos terão acesso a informação sensível. A postura de segurança do fornecedor é tão importante quanto a capacidade do modelo.

7. Planeje para velocidade de mudança, não para estabilidade. Qualquer estratégia de IA que assume “vamos escolher um modelo para os próximos dois anos” está construindo sobre areia. A capacidade dos modelos muda a cada trimestre. Sua arquitetura precisa acomodar essa velocidade.

Conclusão

Fevereiro de 2026 não foi o mês em que uma empresa venceu as outras. Foi o mês em que ficou impossível negar que a pergunta “qual modelo é melhor?” perdeu sentido.

Os três modelos são extraordinariamente capazes. As diferenças entre eles são reais, mas contextuais e temporárias. Em março, haverá novos números. Em abril, novos modelos. Em junho, a classificação terá mudado novamente.

O que não muda é o fundamento. Organizações que constroem infraestrutura sólida — avaliação interna, governança de dados, roteamento multi-modelo, integração padronizada, segurança como prioridade — extraem valor de qualquer modelo de fronteira. Organizações que perseguem o modelo da moda desperdiçam recursos em cada ciclo.

A vantagem competitiva em IA não está no modelo que você escolhe. Está no ambiente que você constrói ao redor dele.

Os modelos são commodity que melhoram a cada trimestre. Sua capacidade operacional é o ativo que se acumula.

Sobre a Victorino Group: Ajudamos organizações a construir a infraestrutura operacional que transforma capacidade de IA em resultado de negócio — avaliação, governança, roteamento multi-modelo e integração. Se sua empresa precisa navegar esse cenário com clareza em vez de hype, fale conosco: contato@victorino.com.br | www.victorino.com.br

Fontes

OpenAI Blog: Introducing GPT-5.3-Codex (5 de fevereiro de 2026)
OpenAI Blog: Introducing Codex-Spark (12 de fevereiro de 2026)
Google DeepMind Blog: Gemini 3 Deep Think (fevereiro de 2026)
ARC Prize: verificação independente do ARC-AGI-2 84,6% (fevereiro de 2026)
Anthropic Blog: Claude Opus 4.6 (5 de fevereiro de 2026)
Benchmarks publicados pelas três empresas (Terminal-Bench 2.0, SWE-Bench Pro, ARC-AGI-2, GDPval-AA, BigLaw Bench, MRCR v2, Humanity’s Last Exam, CMT-Benchmark)
McKinsey Global Survey on AI: The State of AI in 2026
NBIM: avaliação de cibersegurança, Claude Opus 4.6

Nenhum fornecedor foi favorecido nesta análise. Benchmarks auto-reportados por fornecedores são identificados como tal. Avaliações independentes são destacadas quando disponíveis.