O Modelo É Substituível. O Sistema de Trabalho Não É.

A a16z publicou neste mês um mapa do terreno das startups de IA, e a geografia é brutal. Eles tomaram emprestado O Mágico de Oz: existe uma Estrada de Tijolos Amarelos, e existe o resto de Oz. A Estrada de Tijolos Amarelos é o caminho bem pavimentado que os labs de fronteira estão percorrendo, automatizando tudo que entra no campo de visão deles. Fique nessa estrada, construa um wrapper fino em torno de uma chamada de modelo, e você será pavimentado por cima no próximo lançamento de funcionalidade do GPT ou do Claude. O resto de Oz é o território defensável: verticais complexas, reguladas, operacionalmente bagunçadas, onde capacidade sozinha não leva a lugar nenhum.

O instinto é ler isso como um aviso sobre quais mercados entrar. É, na verdade, um aviso sobre o que você constrói depois que já está lá. O modelo que você chama é substituível. Dá para trocar no próximo trimestre. O sistema de trabalho que o envolve, a parte que torna a saída confiável, em conformidade, determinística e operacional, não é nem um pouco substituível. Esse sistema é o fosso.

Os Três Testes de Defensabilidade

A a16z oferece três perguntas que separam uma funcionalidade de uma empresa. Passe qualquer produto de IA por elas.

O primeiro é o teste de ferramentas e etapas. O trabalho exige orquestrar muitas ferramentas ao longo de muitas etapas, ou é uma única chamada de modelo vestida de produto? Uma única chamada é uma funcionalidade, e o lab que detém o modelo um dia deterá a funcionalidade. A defensabilidade real começa quando o produto coordena recuperação, validação, sistemas externos e pontos de checagem humanos em uma sequência que o modelo não consegue executar sozinho.

O segundo é o teste de sistema contra ferramenta. Você vende uma ferramenta que o cliente opera, ou um sistema que opera em nome do cliente e carrega a responsabilidade? Ferramentas viram commodity. Sistemas que absorvem risco operacional são retidos, porque arrancá-los significa reabsorver o risco.

O terceiro é o teste de P&L, e é o mais direto de todos. O produto toca uma linha do demonstrativo de resultados do cliente? Software que fica ao lado do trabalho é um centro de custo para sempre negociando o próprio preço para baixo. Software que move receita ou remove custo é defendido pelas pessoas cujos números dependem dele.

Os dados de portfólio da a16z mostram como passar nesses testes se parece em movimento. A 11x, um produto autônomo de vendas, relata taxas de resposta positiva quadruplicadas nos últimos meses e centenas de milhões de dólares em pipeline. Isso não é um modelo sendo esperto. É um sistema de trabalho, instrumentado e em melhoria contínua, sentado sobre uma linha de P&L.

A Governança É a Parede de Sustentação

A a16z nomeia quatro fontes de defensabilidade vertical: flywheels de dados e aprendizado, roteamento de modelos entre fornecedores, otimização de custo e governança como camada de controle. As três primeiras são reais, mas também são as que os concorrentes esperam e orçam. A governança é a que a maioria dos times trata como papelada e descobre, tarde demais, que é estrutural.

Governança como camada de controle não é uma pasta de conformidade. É a camada viva que decide o que o agente está autorizado a fazer, registra o que ele de fato fez, e dá a um humano a legitimidade para assinar a saída. Numa vertical regulada, a pergunta que o cliente faz nunca é “o modelo é inteligente o bastante”. É “consigo defender essa saída diante de um auditor, de um regulador ou de um tribunal”. Permissões mais auditoria, a fronteira da ação permitida mais o registro imutável da ação tomada, é o que transforma um gerador probabilístico em algo a que uma empresa consegue dar o próprio nome.

Tire a camada de governança e os outros três fossos vazam. Um flywheel de aprendizado sem trilha de auditoria é um acumulador de passivos. Roteamento entre fornecedores sem modelo de permissão são quatro formas de fazer a coisa errada. Otimização de custo sobre uma saída que ninguém consegue defender é lixo barato. A governança é a parede em que o resto da estrutura se apoia.

A OpenAI Construiu a Prova Contra Si Mesma

A evidência mais limpa vem do lab mais capaz de pular o andaime. A OpenAI fez parceria com a Thrive Holdings para construir um agente fiscal autoaprimorável sobre o Codex, e o relato é uma confissão involuntária: dominar uma vertical regulada exigiu muito mais do que capacidade bruta.

Os números de destaque são reais e são grandes. A OpenAI relata que o agente processou 7.000 declarações nesta temporada. O preenchimento de campos a 75 por cento subiu de 25 por cento no lançamento para 86 por cento em seis semanas. A carga de uma declaração para um contador sênior caiu de 180 horas para 15. A vazão subiu cerca de 50 por cento. Os rascunhos chegaram a até 97 por cento de precisão.

Agora leia como esses números foram conquistados. Eles não caíram de um modelo maior. Vieram de um loop com profissionais embarcados: especialistas sentados com o agente, definindo o que era “bom”, construindo portões de avaliação que a saída precisava passar antes que um humano confiasse nela. Só o caminho de imóveis para locação levou cerca de seis semanas mais supervisão pesada para chegar a 90 por cento de precisão e revocação. E aqui está o princípio de governança feito concreto: casos ambíguos voltam para os engenheiros, em vez de serem empurrados à força pelo loop. O sistema conhece a fronteira da própria competência e se recusa a cruzá-la. Essa recusa é governança. É a diferença entre um agente que produz rascunhos com 97 por cento de precisão e um que produz absurdos confiantes nos outros 3 por cento das vezes, sem levantar bandeira nenhuma.

A OpenAI é dona do modelo. Mesmo assim teve de construir o sistema de trabalho. Se o lab de fronteira não vence uma vertical regulada só com capacidade, a empresa de wrapper que chama a API desse lab certamente não vence, e certamente não deveria tentar.

O Que Isso Significa Para Onde Você Constrói

A leitura estratégica é desconfortável para quem montou um negócio horizontal na camada de aplicação apostando que chegar cedo a um bom modelo bastava. Cedo não é um fosso. O lab te alcança na terça-feira. Escolha uma vertical complexa o bastante para que o andaime seja o produto, e então construa o andaime tão fundo que trocar o modelo subjacente não mude nada que o cliente consiga sentir.

Já argumentamos antes que capacidade está virando commodity e orquestração é o fosso. O mapa da a16z afia onde esse fosso é mais difícil de copiar: verticais reguladas, em que a orquestração também precisa ser defensável diante de um terceiro que não estava na sala. Também já traçamos a lacuna de governança dentro de agentes autoaprimoráveis e os controles ausentes na IA vertical de forma ampla. O caso do agente fiscal é esses ensaios feitos carne: um agente autoaprimorável numa vertical regulada, tornado seguro pelo exato andaime que aqueles textos disseram estar faltando em outros lugares.

Faça Isto Agora

Pegue seu produto de IA mais importante e passe pelos três testes com honestidade. Ferramentas e etapas: é mais do que uma chamada de modelo? Sistema contra ferramenta: você carrega o risco operacional do cliente, ou só entrega a ele um teclado mais rápido? P&L: nomeie a linha do demonstrativo que você move. Se passar nos três, encontre sua camada de governança e faça a pergunta do auditor: o cliente consegue defender essa saída diante de um regulador? Se a resposta for não, você não tem um fosso. Tem uma vantagem inicial, e vantagens iniciais expiram.

Construa a parede antes de decorar os cômodos.

Fontes

a16z. “Avoiding Death on the Yellow Brick Road.” Maio de 2026.
OpenAI. “Building Self-Improving Tax Agents with Codex.” Maio de 2026.

A Victorino ajuda empresas a construir o andaime de governança que torna a IA vertical defensável: contato@victorino.com.br | www.victorino.com.br