Screenshots São Engenharia de Contexto Preguiçosa

TV
Thiago Victorino
5 min de leitura
Screenshots São Engenharia de Contexto Preguiçosa
Ouvir este artigo

Cinquenta por cento menos tokens. Mesma tarefa. Sem modelo novo. Só engenharia de contexto melhor.

A Callstack publicou em abril como otimizou o agent-device, uma CLI que deixa agentes de IA controlarem celulares para automação de testes. A manchete técnica é chamativa: mais de 50% de redução no consumo de tokens de LLM. O que a maioria dos leitores vai levar embora é o número. O que vale prestar atenção é o método.

O que a Callstack mudou

O agent-device precisava mostrar ao modelo o estado atual do app mobile a cada passo. A abordagem óbvia, a que qualquer time escolhe no primeiro sprint, é mandar um screenshot. O modelo vê a tela, raciocina, decide o próximo clique. Funciona. É caro.

A Callstack trocou o screenshot por um snapshot da árvore de acessibilidade, aquela estrutura de texto que o Android e o iOS já expõem para leitores de tela. E não um snapshot qualquer: enxuto, agressivamente podado para conter apenas os elementos visíveis no momento, sem ruído, sem hierarquia morta, sem atributos irrelevantes.

O resultado é um pedaço de texto curto que descreve exatamente o que o agente precisa saber para agir. A janela de contexto fica leve. A relação sinal-ruído sobe. O modelo raciocina melhor, e mais barato, sobre o mesmo problema.

Ninguém trocou o modelo. Ninguém mudou a tarefa. Só pararam de mandar contexto preguiçoso.

A lição que não é sobre testes mobile

Governança de custo em IA tem dois caminhos de fracasso.

O primeiro é o burocrático. Gates de aprovação, limites hierárquicos, revisões mensais, o trauma coletivo daquela conta que chegou três vezes maior do que o previsto. O time reage com processo. O processo desacelera tudo e não resolve a causa, porque a causa não é falta de controle, é desperdício embutido no desenho.

O segundo caminho é o de engenharia. Desenho deliberado de contexto. Engenheiros tratando cada token enviado ao modelo como uma decisão, não como um efeito colateral. É o que a Callstack acabou de demonstrar, em produção, com um número difícil de ignorar.

A parte desconfortável é que o caminho de engenharia quase nunca aparece no comitê de governança. Ele mora dentro do código, nas pull requests, nas funções que montam o prompt. Ninguém pede aprovação para mandar um screenshot. Ninguém desenha um diagrama de arquitetura que diga “aqui sangra dinheiro”. O desperdício é invisível até a fatura chegar.

Engenharia de contexto é governança de custo com outro nome

Como 25 Horas, 13 Milhões de Tokens mostrou, contexto em escala deixa de ser detalhe de implementação e vira linha de orçamento. A conversa sobre o ponto de inflexão de governança com o Sonnet 4.6 foi na mesma direção pelo lado econômico: quando o modelo intermediário encosta no flagship, o que sobra para controlar é o consumo. E seus docs têm dois públicos agora, um deles conta tokens.

Tudo isso aponta para o mesmo lugar. Se o seu agente recebe um bloco gordo de contexto porque foi mais fácil mandar tudo do que escolher, você está subfinanciando design de contexto. Não precisa de um novo processo de governança. Precisa tratar o prompt como código de produção, com revisão, métricas e responsabilidade por custo.

Screenshots são o exemplo mais óbvio. Há outros. Logs inteiros despejados no modelo porque ninguém filtrou. Documentação longa injetada sem seleção. Históricos de conversa preservados por medo de perder sinal. Cada um desses é um screenshot disfarçado.

A ressalva honesta

Os 50% da Callstack são de um contexto específico: automação de testes mobile, onde a árvore de acessibilidade existe, é rica e cobre a maior parte do que o agente precisa decidir. Não se generaliza o número. Se generaliza o método.

E o método tem um custo próprio. Podar agressivamente significa, às vezes, esconder do agente o contexto que ele precisaria em um caso de borda. Alguém tem que observar, medir e corrigir. Engenharia de contexto é disciplina contínua, não otimização de uma tarde.

Onde isso deixa o seu time

A pergunta útil não é “quanto o seu time gasta com LLMs”. É “quantos screenshots o seu time está mandando sem perceber”. Quantos blocos de contexto entram no modelo porque alguém escreveu um prompt rápido em uma sexta-feira e nunca mais voltou. Quantas chamadas repetem metadado inútil. Quantos logs viajam inteiros quando um resumo resolveria.

Times que tratam contexto como linha de orçamento, não como sobra, já estão na frente. Não porque descobriram um truque, mas porque pararam de considerar o desperdício um detalhe de implementação. A Callstack fez essa conta, mostrou o número e publicou o método. A parte incômoda é que qualquer time podia ter feito antes, e não fez, porque ninguém estava olhando.

O controle de custo mais barato contínua sendo o que você ainda não está fazendo.


Fontes

Ajudamos times a tratar engenharia de contexto como governança de custo: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa