O Muro da Competência de Domínio

Setenta e dois por cento. Setenta e seis. Oitenta.

Esses são os índices de acerto dos três modelos de IA mais avançados do mundo quando recebem texto limpo de documentos financeiros. GPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro. Números razoáveis, considerando que as tarefas exigem cálculos reais de margem, diluição e crescimento.

Agora troque o texto por uma imagem do mesmo documento. Os mesmos modelos. As mesmas perguntas. A precisão cai para 56%, 56% e 64%. Uma queda de 16 a 20 pontos percentuais, consistente em todos os modelos.

Esses dados vêm de um estudo da Mercor publicado nesta semana, com 25 tarefas baseadas em documentos financeiros reais: relatórios de resultados, apresentações para investidores, tabelas regulatórias. Cinquenta avaliações por modelo. Resposta certa ou errada, sem margem para interpretação.

O achado mais revelador: quando os pesquisadores removeram os documentos e pediram que os modelos respondessem apenas com conhecimento próprio, a precisão despencou para 4%. Claude Opus 4.6 acertou uma questão em 25. Gemini 3.1 Pro, zero. Isso confirma que o benchmark mede raciocínio sobre documentos, não memória.

O Modelo Sabia a Fórmula. Não Conseguia Ler o Gráfico.

O caso mais ilustrativo é uma tarefa sobre um padrão de cunha ascendente em um relatório da Fidelity. A pergunta pede a diferença em dólares entre duas linhas de tendência em um ponto de entrada.

Com texto limpo, os três modelos acertam: US$ 4,00. Com a imagem do gráfico, apenas o Gemini 3.1 Pro chega ao resultado correto. Claude Opus 4.6 lê o ponto de ancoragem errado e responde US$ 2,00. GPT-5.4 erra por margem estreita, US$ 4,30.

Os pesquisadores identificaram duas categorias de falha. A primeira é extração visual: modelos se fixam no elemento errado em gráficos densos, especialmente quando a página contém múltiplos painéis. A segunda é raciocínio financeiro: mesmo com valores corretos em mãos, modelos aplicam a operação errada. Retornam diferença absoluta em vez de variação percentual. Invertem razões. São cálculos simples. O problema não é complexidade, é execução.

Em alguns casos, as duas falhas acontecem juntas. O modelo lê o número errado e depois faz a conta errada com esse número. Erro composto.

Infraestrutura Também Tem Teto

Enquanto modelos de IA tropeçam em documentos visuais, a infraestrutura que sustenta agentes de código enfrenta um problema diferente, mas com a mesma raiz: demanda que excede capacidade.

O GitHub, plataforma onde a maioria dos agentes de código opera, está rodando com aproximadamente 90% de disponibilidade. Para quem não trabalha com operações, parece aceitável. O padrão da indústria é 99,99%. A diferença entre 90% e 99,99% não é de 10 pontos percentuais. É a diferença entre 2,5 horas de indisponibilidade por dia e 52 minutos por ano.

Como exploramos em O Paradoxo das Operações de Agentes, a confiabilidade de infraestrutura de IA já era um ponto cego. Os dados do GitHub tornam o problema concreto.

A causa é mensurável. Contribuições do Claude Code no GitHub aumentaram seis vezes em três meses. Uma startup chamada Pierre Computer reporta picos sustentados de mais de 15.000 repositórios por minuto, volume que o GitHub não consegue absorver. O CTO do GitHub, Vladimir Fedorov, reconheceu três incidentes graves entre fevereiro e março de 2026, todos ligados a saturação de infraestrutura.

O Muro Tem Duas Faces

De um lado, modelos que não conseguem ler o que veem. Precisão de 80% com texto vira 64% com imagens. Em finanças, onde um erro de leitura em uma tabela de capitalização pode mudar a tese de investimento, 64% é inaceitável.

Do outro lado, infraestrutura que não aguenta o volume que os próprios agentes geram. Mais agentes, mais commits, mais pull requests, mais carga. O sistema que deveria escalar o trabalho está sendo esmagado pelo trabalho que escalou.

As duas limitações convergem no mesmo ponto. Competência de domínio exige mais do que capacidade de raciocínio. Exige leitura precisa de contexto visual, acesso confiável a infraestrutura e execução consistente sob condições reais. Nenhum modelo e nenhuma plataforma entrega isso hoje com a confiabilidade que empresas exigem.

Em nosso artigo sobre o LUCA Bot da CEMEX, vimos um agente financeiro com 82% de precisão analítica sendo celebrado como conquista. Os dados da Mercor mostram que, em condições realistas, até esse número é otimista. Quando o documento chega como imagem (e na prática, é assim que a maioria dos documentos financeiros existe), a precisão cai para a faixa dos 50%.

O Que Isso Significa na Prática

A tentação é esperar. “A próxima versão vai resolver.” Talvez. Mas a degradação de 16 a 20 pontos em extração visual é consistente em todos os três modelos de fronteira. Não é uma falha de um fornecedor. É uma limitação estrutural da geração atual.

Para empresas que estão implementando IA em processos financeiros, a implicação é direta: qualquer pipeline que dependa de leitura de documentos visuais precisa de uma camada de verificação humana. Não como redundância temporária, mas como componente permanente do sistema enquanto a extração visual não atingir o mesmo patamar do raciocínio textual.

Para equipes de engenharia que dependem de agentes autônomos, a implicação é igualmente direta: a infraestrutura que sustenta esses agentes precisa ser tratada com o mesmo rigor de qualquer sistema em produção. Disponibilidade de 90% não é aceitável para um banco de dados. Não deveria ser aceitável para a plataforma que executa seus agentes.

A pergunta certa não é “quão inteligente é o modelo.” É “quão confiável é o sistema completo, do documento ao resultado.” Hoje, a resposta honesta é: não o suficiente.

Fontes

Chauhan, Sinha, Mahapatra, Kottamasu. “AI can’t read an investor deck.” Abril 2026.
Orosz, Gergely. “Does GitHub still merit top Git platform status?.” Abril 2026.

Victorino Group ajuda empresas a governar IA onde ela encontra complexidade de domínio: contato@victorino.com.br | www.victorino.com.br