A Cognition mede o Devin em horas humanas, e apostou US$ 10 mi nisso

TV
Thiago Victorino
8 min de leitura
A Cognition mede o Devin em horas humanas, e apostou US$ 10 mi nisso

A Cognition publicou um método para responder a uma pergunta em cada sessão do Devin: quanto tempo um engenheiro humano teria levado para produzir a mesma saída? A unidade é horas produtivas de engenharia, conversíveis em dólares a uma taxa global padrão. Por trás do número existe uma garantia de US$ 10 milhões por cliente corporativo. Esta é a tentativa mais concreta até agora de um fornecedor de agentes precificar a própria saída em termos que um CFO reconhece, e a metodologia merece leitura linha a linha, porque a honestidade da matemática é a história toda.

A unidade é hora humana, não token

Contagem de tokens mede consumo. Linhas de código medem volume. Ambas deixam o comprador sem saber quanto o trabalho valeu. O estimador da Cognition pula as duas e responde à pergunta que um gestor de fato faz na hora da avaliação: se uma pessoa tivesse feito isto, quantas horas produtivas teria custado?

Esse reenquadramento importa porque coloca o agente em uma escala que humanos já usam para orçamento, alocação e ROI. Uma hora de engenharia tem preço. Um token carece dele, pelo menos de um que se traduza em valor. Ao converter a saída de uma sessão em horas humanas equivalentes, a Cognition torna o trabalho do Devin somável ao mesmo livro-razão em que o resto da equipe é medido. O estimador é, ele próprio, um agente, que pontua cada sessão depois do fato e não durante.

Como a calibração funciona de verdade

O estimador é ajustado contra estimativas humanas reais, em vez de chutado. A Cognition construiu um conjunto de referência com 258 sessões de 126 usuários, pediu a humanos que estimassem quanto tempo a saída de cada sessão teria levado, e ajustou uma curva em espaço logarítmico:

h = 2,28 x m^0,923

onde m é a medida do lado do modelo e h são as horas humanas previstas. O expoente abaixo de 1 indica uma relação levemente sublinear, e o efeito prático fica perto de um multiplicador constante de cerca de 2,08x. A saída bruta do Devin, nesta calibração, mapeia para cerca do dobro das horas humanas que suas métricas de superfície ingenuamente sugeririam.

O multiplicador, sozinho, não conquista confiança. O que conquista vem na cifra seguinte.

A eval reservada, e a honestidade nela

Um modelo que se ajusta aos próprios dados de treino prova pouco. A Cognition separou um conjunto distinto de 233 sessões e avaliou o estimador contra julgamentos humanos novos. O resultado: correlação em espaço logarítmico de 0,74 (r-quadrado de 0,54). Cerca de metade de todas as sessões cai dentro de 2x da estimativa.

Leia isso como um estatístico leria. Um r-quadrado de 0,54 significa que o método explica pouco mais da metade da variância nas estimativas humanas. Metade das sessões erra a estimativa por mais de um fator de dois. A Cognition publicou as duas cifras em vez de arredondá-las em uma alegação de marketing. Essa é a parte que vale copiar. A maioria dos números de produtividade de fornecedor chega como um múltiplo confiante e único, sem barra de erro, sem conjunto reservado e sem admitir onde o método é fraco.

Eles também mostraram o trabalho contra a alternativa fraca. Um estimador baseado só em linhas de código pontuou um r-quadrado de apenas 0,27, cerca de metade do poder preditivo. A lição é direta: métricas de volume são proxies ruins de valor, e eles conseguem provar isso com os próprios dados.

Onde isso se posiciona frente a tentativas anteriores

A Cognition colocou seu resultado ao lado de duas medições anteriores, que é como um trabalho honesto de metodologia deve ser apresentado. A METR relatou correlação logarítmica de 0,83, mas sobre 34 sessões de 7 funcionários, uma amostra pequena e controlada. A Anthropic relatou 0,46 em 1.000 tickets de Jira usando apenas títulos e descrições, uma amostra grande com sinal fraco por item. O 0,74 da Cognition, sobre 233 sessões reservadas, fica entre os dois nos dois eixos: mais dados que a METR, sinal mais rico que a abordagem de títulos de Jira.

Nenhuma das três é a palavra final. São três pontos numa curva jovem, e o movimento útil é compará-los em aberto, enquanto cada fornecedor evita alegar que o próprio número é definitivo.

As regras de baseline que freiam a inflação

A forma mais fácil de forjar um número de produtividade é definir a baseline com generosidade. A Cognition escreveu regras explícitas para impedir isso, e elas são a parte mais discretamente importante do post.

O estimador raciocina sobre o caminho que um humano teria tomado, não sobre os desvios que o agente tomou. Ele credita apenas o trabalho que o usuário não havia especificado, de modo que o boilerplate ditado pelo humano não conta como valor do agente. Ele assume que o humano tem a expertise relevante, removendo o truque de comparar o agente a um novato. Ele considera a familiaridade com a base de código, já que um engenheiro que conhece o sistema anda mais rápido que o pior caso de humano substituto do agente. Entre 1% e 20% das sessões são filtradas como improdutivas, em vez de contadas como zero ou, pior, como positivas.

Cada regra empurra a estimativa para baixo, em direção a uma baseline humana mais dura. Um fornecedor otimizando para uma manchete lisonjeira teria escrito o oposto. São essas escolhas que tornam o multiplicador de 2,08x crível em vez de conveniente.

A garantia de US$ 10 mi, e o limite que ela nomeia

A metodologia sustenta uma promessa comercial. Scott Wu, CEO da Cognition, anunciou uma Garantia de Produtividade de IA: para cada cliente corporativo, se o Devin entregar menos valor de engenharia do que o cliente pagou, a Cognition banca o uso até US$ 10 milhões até que entregue, avaliado perto do fim do contrato anual. O estimador é o instrumento que decide se a régua foi cumprida.

Então vem a frase que a maioria dos fornecedores teria cortado. A Cognition admite que o estimador “não substitui medir ROI”. O método pontua o agente contra uma baseline humana. Ele diz quantas horas humanas a saída do Devin representa. Ele não diz se essa saída avançou receita, reduziu risco ou moveu qualquer resultado de negócio que o cliente de fato compra software para mover. Valor de engenharia é um insumo. ROI de negócio é o resultado, e a Cognition afirma sem rodeios que não resolveu o segundo.

Essa admissão define a fronteira com precisão. O método pontua um jogador, o agente, contra um humano sintético de habilidade equivalente. Ele ainda não pontua a equipe que de fato entrega, humanos e agente juntos, sobre os resultados que o negócio está pagando para obter. Medir o agente contra um humano solo hipotético é um avanço real. Não é o mesmo que medir se a equipe combinada produziu algo que valha o orçamento.

Faça isso agora

Se você está avaliando qualquer alegação de produtividade de IA, submeta-a à régua que a Cognition acaba de estabelecer, e aplique essa régua à própria Cognition. Exija quatro coisas antes de acreditar num múltiplo. Um conjunto de avaliação reservado, no qual o método nunca treinou. Uma correlação relatada com faixa de erro, não um número único e limpo. Regras de baseline explícitas, que você possa ler e contestar, escritas para tornar a comparação mais difícil e não mais fácil. E uma fronteira declarada: o que o número mede de fato, e o que ele admite não medir.

Depois pegue o limite que a Cognition nomeou e trate-o como o seu próprio trabalho. Horas de engenharia são um insumo que você agora consegue estimar. ROI de negócio é a saída que você ainda precisa instrumentar por conta própria, nas suas métricas, com sua equipe e seu agente em um único placar. Um fornecedor medindo o próprio agente contra um humano hipotético é evidência útil. Não substitui medir se a sua equipe real, ampliada por aquele agente, entregou valor à altura do que você pagou. Construa essa medição antes de assinar, não depois que a renovação chega.

A régua para uma alegação de produtividade de IA acaba de subir. Eval reservada, correlação relatada, baselines honestas, limites nomeados. Qualquer coisa menor é um número sem método por trás.


Fontes

A Victorino ajuda equipes a construir medição confiável antes de apostar orçamento nela: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa