Harvey Abriu 1.200 Tarefas Jurídicas. A Régua de Procurement Mudou.

Seis semanas atrás, a Harvey anunciou 25.000 agentes implantados em 1.300 organizações jurídicas e nenhum dado público de acurácia. Escrevemos sobre isso. A pergunta implícita era desconfortável: como uma plataforma que executa raciocínio jurídico nessa escala opera sem uma régua aceita pelo setor?

A Harvey acaba de responder. Em parte.

A empresa publicou o Harvey Legal Agent Benchmark, um conjunto open-source de avaliação com mais de 1.200 tarefas de longo horizonte cobrindo 24 áreas de prática. Cada tarefa vem com instruções no estilo de um sócio, com cinquenta palavras em média, pacotes mistos de documentos relevantes e periféricos por matéria, rubricas escritas por especialistas, e um modelo de avaliação que exige acerto em todos os critérios. Não há leaderboard no lançamento. Os números base virão depois, com parceiros de pesquisa.

Isso não é a mesma coisa que publicar acurácia do produto em produção. Mas é um movimento maior do que a maioria vai ler.

O Que Significa Abrir a Régua

O fornecedor que constrói o benchmark define o formato do teste. Esse é um poder concreto. A Harvey definiu o que conta como “bom” em vinte e quatro áreas de prática, calibrando o teste pela forma como um sócio delega trabalho. Uma vez que essa definição é pública e adotada, todo concorrente ou roda contra ela ou explica por que se recusa.

Há um indício na construção do LAB. As tarefas são de longo horizonte, ou seja, exigem raciocínio em múltiplos passos sobre pacotes mistos de documentos. LegalBench, CUAD, LEXam e BigLaw Bench medem raciocínio de curto horizonte: classifique esta cláusula, extraia este termo, responda esta pergunta. O LAB foi estruturado em torno da unidade de trabalho que de fato gera honorários jurídicos. Uma análise de cláusula de mudança de controle em oito contratos em uma aquisição fictícia não é uma pergunta de prova. É uma terça-feira normal em uma banca transacional.

O modelo de avaliação por acerto integral é o segundo indício. Uma tarefa só é aprovada se todos os elementos exigidos estiverem corretos. Não há crédito parcial. Isso importa porque o trabalho jurídico falha de forma binária. Uma revisão contratual que captura oitenta por cento dos riscos materiais não vale oitenta por cento. É erro profissional.

Ao escrever a rubrica assim, a Harvey está codificando um padrão de procurement, não um padrão acadêmico.

A Régua de Procurement Mudou

Até esta semana, um diretor jurídico comparando fornecedores de IA jurídica tinha três opções. Confiar na palavra do fornecedor. Rodar um piloto interno sem nenhuma linha de base comparável. Contratar uma consultoria para montar avaliações sob medida.

A primeira é inaceitável. A segunda é lenta e produz resultados que não comparam entre fornecedores. A terceira é cara e ainda assim específica de um fornecedor.

O LAB não elimina nenhuma dessas opções, mas muda a conversa. Um comprador pode agora escrever no RFP: “Apresente suas notas nas seções públicas do LAB. Descreva a metodologia usada para rodá-las. Se sua nota não for competitiva, explique por que sua suíte de avaliação é mais relevante para o nosso trabalho do que a que vinte e quatro áreas de prática ajudaram a desenhar.”

Fornecedores que recusarem essa pergunta vão perder negócios para fornecedores que respondem. A cauda longa de empresas de legal-tech que sobreviveu de venda por demonstração e case study perdeu um esconderijo.

Por Que a Harvey Ganha Abrindo o Código

A lógica estratégica é direta. A Harvey tem vantagens de escala, de dados de treinamento e de calibração com sócios. Tem alta probabilidade de ir bem em um benchmark desenhado em torno de padrões de delegação de sócios. Publicar o benchmark compromete o setor com uma régua para a qual a Harvey já está otimizada.

Isso não é jogada inédita. É a mesma jogada que a OpenAI fez com o HumanEval, que a Anthropic fez com a literatura de constitutional AI, que o Google fez com o BigBench. Defina o teste. Estabeleça o padrão. Veja o campo se reorganizar em torno do seu formato.

O que é novo é o timing em jurídico. Procurement de IA jurídica ainda está cedo o suficiente para não ter um benchmark incumbente. Quem entrega primeiro captura mindshare de definição de categoria. A Harvey entregou primeiro.

O Que Isso Não Resolve

Um benchmark padronizado não substitui os quatro requisitos de governança que a crítica de escala de implantação levantou. A arquitetura de responsabilidade civil não muda. A orientação das ordens dos advogados não muda. As normas de divulgação ao cliente não mudam. A pergunta sobre se um agente que produz trabalho competente significa que um advogado ainda está praticando advocacia continua aberta.

O LAB mede capacidade, não responsabilidade. Um fornecedor pode passar no LAB e ainda assim deixar um escritório sem resposta defensável para “quem responde quando isso estiver errado.” Um fornecedor pode falhar no LAB e ainda assim ser a escolha certa para um fluxo de trabalho que o LAB não representa.

Há também um problema mais profundo. O benchmark é lançado sem leaderboard. A Harvey diz que os números base virão com parceiros de pesquisa. Até isso acontecer, o LAB é um padrão proposto, não aplicado. A história muda quando o primeiro fornecedor que não é a Harvey publicar suas notas. Muda de novo quando um grupo acadêmico independente reproduzir a metodologia e contestar a rubrica. Vale acompanhar os dois movimentos.

O Que Compradores Devem Fazer Neste Trimestre

Para diretores jurídicos, líderes de procurement e CIOs de escritórios avaliando IA jurídica nos próximos dois trimestres, três ações importam.

Leia o benchmark antes da próxima demo de fornecedor. As 1.200 tarefas em 24 áreas de prática descrevem o que conta como bom em trabalho jurídico de longo horizonte. Use isso como espinha dorsal da sua própria avaliação, mesmo que você nunca rode o benchmark. Peça ao fornecedor para percorrer três tarefas escolhidas ao acaso. A fluência dele nessas tarefas diz mais do que qualquer deck comercial.

Inclua o desempenho no LAB na linguagem do seu RFP. Não como filtro eliminatório, mas como pergunta. “Apresente seu desempenho nas porções públicas do LAB, com metodologia e notas de reprodução. Se você ainda não rodou o LAB, descreva a suíte de avaliação que usa e por que ela é mais representativa do nosso trabalho.” Um fornecedor que se recusa a responder é um fornecedor que não está pronto para ser medido.

Separe capacidade de responsabilidade. Uma nota alta no LAB responde se um agente consegue executar o trabalho. Não responde quem é responsável quando o trabalho está errado, qual divulgação seu cliente recebe, o que o seu seguro cobre ou o que a sua ordem espera. Construa essa segunda camada de avaliação em paralelo. Capacidade é a parte fácil.

O Sinal Real

A manchete diz “Harvey publica benchmark.” O sinal real é outro.

Um fornecedor de IA vertical avaliado em $11 bilhões, seis semanas depois de uma crítica de que estava operando sem régua, entregou a régua. Não um benchmark de marketing. Uma suíte de avaliação de longo horizonte com 1.200 tarefas, modelo de avaliação por acerto integral e vinte e quatro áreas de prática com input de sócios. Open-source.

Isso é governança por mecânica de mercado. O setor agora tem um padrão público. Fornecedores vão competir nele. Compradores vão precificar com base nele. Pesquisadores independentes vão estressar a metodologia. A primeira versão será imperfeita. A segunda será melhor. O que não vai acontecer é todo mundo voltar para a avaliação por demonstração.

A régua subiu. As empresas que se mexerem com ela vão fechar negócio no próximo ano. As que não se mexerem vão passar os próximos doze meses explicando por que o benchmark interno delas, que só elas enxergam, é aquele em que o comprador deveria confiar.

Fontes

Harvey. “Introducing Harvey’s Legal Agent Benchmark.” Maio de 2026.

A Victorino ajuda escritórios e compradores de legal-tech a transformar benchmarks de fornecedores em critérios de procurement: contato@victorino.com.br | www.victorino.com.br