O Melhor Modelo Conclui 7% das Tarefas Jurídicas Reais. E Agora?

Quando a Harvey lançou seu Legal Agent Benchmark, a pergunta interessante não era se os modelos de fronteira conseguiam fazer trabalho jurídico. Era como alguém saberia. Um benchmark de 1.200 tarefas em 24 áreas de prática, avaliado por advogados, é um instrumento de medida. As primeiras leituras chegaram, e elas são humildes de um jeito que deveria recalibrar como times regulados falam sobre prontidão de agentes.

A Harvey relata que, sob um padrão estrito de aprovação total, em que todo critério da rubrica de uma tarefa precisa ser satisfeito para a tarefa contar, o melhor modelo de fronteira conclui apenas 7,1% das tarefas jurídicas reais de ponta a ponta. Não 71%. Sete. O ranking, como a Harvey o publica: Claude Opus 4.7 com 7,1%, Sonnet 4.6 com 5,4%, Opus 4.6 com 4,2%, GPT-5.5 com 2,1%, Gemini 3.5 Flash com 0,8%.

Duas ressalvas antes das lições. A Harvey é fornecedora de IA jurídica publicando um benchmark que ela mesma construiu, então leia os números absolutos como vindos do fornecedor. E “aprovação total” é deliberadamente implacável: uma tarefa que acerta nove de dez critérios recebe zero. Essa severidade é o ponto. No direito, uma peça 90% correta não é 90% útil. É um passivo com boa formatação.

Um teto abaixo de 10% é sinal de estratégia, não veredito

O reflexo ao ver 7,1% é concluir que os modelos não estão prontos. Essa é a leitura errada. A leitura certa é que o trabalho jurídico está longe de saturado, e a distância entre uma demo e a produção jurídica de qualidade é enorme e agora mensurável.

Isso importa porque o mercado vinha precificando IA jurídica como se a parte difícil estivesse resolvida e sobrasse só integração. O teto de aprovação total diz o contrário. Se o melhor modelo disponível acerta sete de cem tarefas reais sozinho, então o valor de um produto de IA jurídica não é o modelo. É tudo o que envolve o modelo: recuperação, validação, o fluxo que captura os três critérios que o modelo perdeu antes que cheguem a um sócio.

Um teto de 7% no modelo cru é o argumento mais forte possível para a camada de sistema. Os fornecedores que vencerem não serão os com acesso privilegiado a modelo. Serão os que transformam um modelo de 7% em um fluxo de 70%.

Inteligência irregular: nenhum modelo único vence

O ranking ordena modelos lado a lado, o que convida a uma simplificação tentadora: escolha o Opus 4.7, ele teve a maior nota, pronto. O próprio enquadramento da Harvey resiste a isso, e a resistência é o achado mais útil.

O desempenho é irregular. Um modelo que lidera em redação contenciosa pode ficar atrás em estruturação tributária ou análise regulatória. A nota agregada esconde inversões por área de prática: o modelo para o qual você roteia uma questão de mercado de capitais não é o modelo para o qual você roteia uma questão trabalhista. Inteligência não é uma dimensão única que se possa ranquear. É uma superfície com picos e vales que diferem por domínio.

A consequência operacional é direta. Um agente jurídico de produção não pode ser de modelo único. Ele tem que rotear. A arquitetura certa trata os modelos de fronteira como um painel de especialistas e envia cada tarefa para o modelo que tem pico naquela área de prática. Isso não é proteção contra um fornecedor específico. É a única forma de colher o melhor desempenho disponível em uma superfície irregular, porque nenhum ponto único dessa superfície é o mais alto em tudo.

Há aí implicações de compras que a maioria dos times não absorveu. Se sua estratégia de IA jurídica é “padronizamos em um modelo”, você se prendeu aos vales daquele modelo. O benchmark diz que os vales são profundos.

Custo e latência andam na direção errada

Aqui está o detalhe que complica a história multimodelo. O modelo de maior nota é também o mais caro e o mais lento. A Harvey relata o Opus 4.7 a cerca de US$ 50,90 por tarefa e cerca de 22 minutos de tempo de relógio. O modelo que acerta sete de cem tarefas custa cinquenta dólares e vinte e dois minutos para fazê-lo.

Para um sócio que fatura a tarifas altas, cinquenta dólares e vinte e dois minutos por um primeiro rascunho utilizável valem a pena trivialmente. Para um agente que roda milhares de tarefas por dia em uma banca, a conta se inverte rápido. A camada de roteamento não está só escolhendo o modelo de maior nota numa área de prática. Está escolhendo o modelo que passa na barra de qualidade a custo e latência aceitáveis. Às vezes é o modelo mais barato que pontua um ponto abaixo. Às vezes a resposta de 22 minutos e cinquenta dólares é a única que passa na barra, e você paga.

Roteamento, portanto, é uma decisão de três eixos: precisão, custo, latência. Tratá-lo como só precisão é como orçamentos de IA jurídica explodem no terceiro mês.

A trajetória importa tanto quanto a resposta

O achado mais importante nos resultados da Harvey não está no ranking. Está no comportamento.

A Harvey avaliou não só o que os agentes produziram, mas como chegaram lá: a trajetória de ler, buscar, redigir, validar, revisar. E a trajetória prevê a nota. Comportamentos específicos elevam a aprovação total, e comportamentos específicos a afundam.

As elevações: revisar após uma autoverificação adiciona cerca de 1,5 ponto de aprovação total. Rodar uma etapa de validação após redigir adiciona cerca de 0,8. As quedas: redigir sem qualquer revisão custa cerca de 1,2 ponto. Uso ruidoso de ferramentas, definido como cinco ou mais chamadas de ferramenta em um único turno, custa cerca de 0,5.

Leia esses números juntos e surge uma disciplina. Os agentes que vencem não produzem mais. Produzem, depois checam, depois revisam. Buscam com intenção em vez de pulverizar chamadas de ferramenta na esperança. O perfil comportamental de um bom agente jurídico se parece com o perfil de um bom advogado júnior: rascunha, verifica contra a fonte, corrige o que a verificação revelou, depois passa adiante.

Esta é a parte que deveria reformular a governança. Se a trajetória prevê qualidade, então governar agentes jurídicos significa governar comportamento, não só amostrar saídas. Um agente que produz uma peça correta rascunhando às cegas e tendo sorte não é um agente governado. É um agente sem governança que ainda não falhou. O comportamento é a superfície de controle. A saída é o indicador atrasado.

Governança no direito é governança como medição

Junte os três achados e uma postura se impõe. O modelo sozinho passa em 7% das tarefas. Nenhum modelo único é o melhor em todas as áreas de prática. O comportamento no caminho até a resposta prevê se a resposta se sustenta. Nada disso é governável revisando documentos finais depois do fato.

Governança em trabalho jurídico regulado tem que ser governança como medição: uma barra de aprovação total, de nível de compras, aplicada ao comportamento, não uma verificação por amostragem aplicada às saídas. Isso significa três compromissos que a maioria das implantações de IA jurídica ainda não assume.

Mantenha uma barra de aprovação total. Uma tarefa está pronta quando todo critério passa, não quando a maioria passa. Noventa por cento no direito é uma falha com boa gramática.

Meça a trajetória. Instrumente o que o agente lê, busca, redige, valida e revisa. Premie revisar após checar. Marque redigir sem revisão e pulverização ruidosa de ferramentas como defeitos, mesmo quando a resposta final por acaso esteja certa.

Roteie por um painel. Trate modelos como especialistas, avalie-os por área de prática nas suas próprias tarefas, e deixe custo e latência entrarem na decisão de roteamento. Um modelo que pontua mais alto num ranking que você não construiu não é evidência sobre os seus casos.

Faça isto agora

Pegue um fluxo jurídico que você está tentado a automatizar. Defina a rubrica de aprovação total dele: liste todo critério que um sócio exigiria, e não aceite menos do que todos eles. Rode seu modelo candidato contra dez tarefas reais sob essa barra e registre a taxa crua de aprovação de ponta a ponta. Ela será mais baixa do que você espera, e esse número é a sua linha de partida honesta. Depois instrumente a trajetória nessas mesmas dez: o agente valida após redigir, revisa após checar, pulveriza chamadas de ferramenta? Você passa a ter dois controles que os dados da Harvey dizem prever qualidade, e uma postura de medição que sobrevive a um regulador perguntando como você sabe que o agente é seguro. A lição do benchmark não é que a IA jurídica está distante. É que os times que medem comportamento, não notas, são os que vão poder implantá-la.

Fontes

Harvey. “Initial Results on Legal Agent Benchmark.” Maio de 2026.

A Victorino ajuda times regulados a medir o comportamento do agente, não só a nota do benchmark: contato@victorino.com.br | www.victorino.com.br