Governança como Vantagem

Context Engineering para Agentes de IA: Licoes do Azure e Manus

TV
Thiago Victorino
14 min de leitura

A era do prompt engineering evoluiu. Construir com LLMs nao e mais sobre encontrar as palavras certas — e sobre responder: “Qual configuracao de contexto tem maior probabilidade de gerar o comportamento desejado do modelo?”

A equipe do Azure SRE Agent descobriu que melhorias no contexto superam upgrades de modelo e otimizacao de prompts combinados.

Definicao

Context Engineering e a disciplina de projetar a arquitetura que alimenta o LLM com a informacao certa no momento certo.

“De ao modelo menos escolhas, mais limpas, e gaste seu esforco tornando o contexto pequeno, estruturado e facil de operar.” — Equipe Azure SRE Agent

Contexto como RAM

Andrej Karpathy propos tratar janelas de contexto como gerenciamento de memoria:

  • Carregar: O que entra no contexto
  • Comprimir: Reduzir sem perder essencia
  • Paginar: Mover para armazenamento externo
  • Computar: Processar externamente

Context Rot e um fenomeno real: a qualidade degrada de forma nao-linear conforme tokens preenchem a janela. Efeitos aparecem muito antes dos limites anunciados. Janelas anunciadas de 200k+ tokens frequentemente tem efetividade abaixo de 128k. Recomendacao: manter utilizacao abaixo de 40%.

Sete Licoes do Azure SRE Agent

Licao 1: Confianca Habilita Raciocinio

Sistemas com 100+ ferramentas estreitas criaram fragilidade. A mudanca veio de confiar no modelo para raciocinar dentro de guardrails amplos.

Antes: Codificar cada cenario em ferramentas especificas Depois: Ferramentas amplas + guardrails + confianca no raciocinio

Licao 2: Aproveite Conhecimento Existente

Em vez de criar abstracoes para Azure CLI e Kubernetes, a equipe expos comandos diretamente. LLMs ja conhecem essas CLIs dos dados de treinamento.

Lutar contra o conhecimento pre-existente do modelo atraves de camadas de abstracao e contraproducente. O modelo ja sabe usar kubectl, az e git. Deixe-o usar.

Licao 3: Coordenacao Multi-Agente e Complexa

Escalar de 10 para 50+ agentes especializados criou falhas previsiveis:

  • Problemas de descoberta: Agentes nao sabiam sobre capacidades distantes
  • Fragilidade de prompt: Um agente mal ajustado corrompia toda a cadeia
  • Loops infinitos: Agentes delegando trabalho circularmente
  • Visao de tunel: Limites rigidos impediam raciocinio cross-domain

A solucao foi colapsar dezenas de especialistas em poucos generalistas com ferramentas amplas e arquivos de conhecimento sob demanda.

Licao 4: Invista em Capacidades, Nao Restricoes

Inspirado no conceito de “agent skills” da Anthropic: conhecimento sob demanda em vez de especializacao rigida.

O padrao que funciona: poucos agentes generalistas, ferramentas amplas e flexiveis, arquivos de conhecimento carregados quando necessario, guardrails em vez de restricoes hard-coded.

Licao 5: LLMs Orquestram, Nao Calculam

Despejar 50k tokens de metricas brutas no contexto era o caminho errado.

Errado: Metricas brutas no contexto para analise Certo: Modelo escreve codigo (pandas/numpy), executa, retorna resultados

Resultado: Eliminou overhead de tokens e estendeu janelas de analise em 10x.

Licao 6: Externalize Planos e Compacte Historico

Usar checklists explicitos (planners estilo todo) fora do contexto do modelo. Planos em arquivos externos (todo.md), historico compactado em resumos, estado estruturado preservado.

O Manus usa “recitacao”: atualiza todo.md constantemente para manter objetivos na parte recente do contexto.

Licao 7: Trate Outputs Grandes como Fontes de Dados

Quando ferramentas retornam payloads massivos (200k+ tokens de queries de banco):

  1. Intercepte em arquivos baseados em sessao
  2. Modelo inspeciona via ferramentas adicionais
  3. Filtra e analisa incrementalmente
  4. Nunca despeje dados brutos no contexto

Sistema de arquivos como contexto estendido ilimitado.

Tool Call Chaining

Esta pratica emergente reduz 60-70% no overhead de tokens.

Tradicional: Modelo chama Tool A, volta ao modelo, chama Tool B, volta ao modelo, chama Tool C…

Melhorado: Modelo gera script que executa A, B, C em sequencia, depois volta ao modelo.

Quando a sequencia e previsivel, execute-a em um bloco. Reserve o modelo para decisoes que requerem raciocinio.

Tecnicas do Manus: KV-Cache

Manus mantem ratio de 100:1 entre tokens de entrada e saida. A chave e otimizacao de cache.

  • Com cache no Claude Sonnet: $0.30/MTok
  • Sem cache: $3.00/MTok

10x de economia quando voce mantem prefixos de prompt estaveis.

Praticas para Alta Taxa de Cache

  • Mantenha prefixos estaveis: Timestamps destroem cache
  • Arquitetura append-only: Adicione ao contexto, nao reordene
  • Serializacao deterministica: JSON com chaves ordenadas
  • Breakpoints explicitos: Marque onde o cache pode ser invalidado

Espaco de Acao Hierarquico

100+ ferramentas causam “Context Confusion”. A solucao e hierarquia.

Nivel 1 - Atomico: ~20 ferramentas core sempre visiveis (file_write, browser_navigate, bash, message_user)

Nivel 2 - Utilitarios Sandbox: Comandos CLI via bash para operacoes mais complexas

Nivel 3 - Codigo e Pacotes: Logica complexa em cadeias de codigo, bibliotecas Python

Com 100+ ferramentas visiveis, modelos alucinam parametros ou chamam ferramentas erradas. A hierarquia mantem o conjunto visivel pequeno enquanto preserva poder total.

Anti-padroes a Evitar

  • Adicionar/remover ferramentas dinamicamente (invalida cache)
  • Compressao agressiva de contexto (perda irreversivel)
  • Esconder erros do modelo (impede aprendizado)
  • Timestamps em system prompts (destroi cache)
  • Serializacao JSON instavel (cache miss)
  • Contexto muito uniforme (causa colapso de padrao)
  • RAG dinamico para definicao de ferramentas (gera alucinacao)

Principio do Manus: Introduza variacao controlada em serializacao, fraseado e ordenacao para quebrar padroes repetitivos.

Tres Problemas de Contexto

Context Rot

Performance degrada conforme janela enche. Solucao: definir thresholds pre-rot (~128k), manter utilizacao abaixo de 40%, compactar historico proativamente.

Context Pollution

Informacao irrelevante distrai o modelo. Solucao: compactacao para remover redundancia, preservar paths em vez de conteudo, sumarizacao seletiva.

Context Confusion

Modelo nao distingue instrucoes, dados e marcadores. Solucao: separar claramente secoes, usar delimitadores explicitos, evitar instrucoes conflitantes.

Padroes que Sobreviveram a Producao

  • Ferramentas Amplas: Poucas ferramentas poderosas superam muitas estreitas
  • Code Interpretation: Para analise deterministica, modelo escreve codigo
  • Context Compaction: Sumarizacao continua do historico
  • Progressive Disclosure: Sistema de arquivos baseado em sessao
  • Tool Chaining: Sequencias previsiveis executam em bloco
  • Preserve Failures: Erros permanecem visiveis para aprendizado

Caso Real: Azure SRE Resolve o Inesperado

O proprio deployment do Azure OpenAI da equipe comecou a falhar. Nao havia workflow pre-definido. O agente:

  1. Verificou logs de erro
  2. Identificou erro de quota
  3. Consultou limites de subscription
  4. Encontrou a categoria correta de suporte
  5. Abriu um ticket automaticamente
  6. No dia seguinte, quota aumentada

Por que funcionou: Agentes generalistas, ferramentas amplas (CLI real), confianca no raciocinio, contexto limpo e estruturado.

Emergencia comportamental surge de contexto bem projetado, nao de programacao explicita de cenarios.

Framework de Design

Quatro operacoes de Context Engineering:

  • Write: Escrever informacao no contexto. O que entra e em que formato.
  • Select: Escolher qual informacao incluir em cada passo.
  • Compress: Reduzir sem perder essencia. Priorizar reversibilidade.
  • Isolate: Separar contextos. Sub-agentes com contexto minimo necessario.

A Filosofia que Funcionou

“Ganhos de performance vieram de remover coisas, nao de adicionar complexidade.” — Principio do Manus AI

Conforme modelos melhoram, sistemas devem reduzir scaffolding, nao aumentar. Context engineering foca em encontrar o contexto minimo efetivo necessario por passo.


Na Victorino Group, aplicamos context engineering governado para empresas que precisam de agentes de IA confiaveis em producao. Se voce precisa otimizar seus sistemas agenticos, vamos conversar.

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa