Context Engineering para Agentes de IA: Lições do Azure e Manus

A era do prompt engineering evoluiu. Construir com LLMs não é mais sobre encontrar as palavras certas — e sobre responder: “Qual configuração de contexto tem maior probabilidade de gerar o comportamento desejado do modelo?”

A equipe do Azure SRE Agent descobriu que melhorias no contexto superam upgrades de modelo e otimização de prompts combinados.

Definição

Context Engineering e a disciplina de projetar a arquitetura que alimenta o LLM com a informação certa no momento certo.

“De ao modelo menos escolhas, mais limpas, e gaste seu esforço tornando o contexto pequeno, estruturado e fácil de operar.” — Equipe Azure SRE Agent

Contexto como RAM

Andrej Karpathy propos tratar janelas de contexto como gerenciamento de memória:

Carregar: O que entra no contexto
Comprimir: Reduzir sem perder essência
Paginar: Mover para armazenamento externo
Computar: Processar externamente

Context Rot e um fenômeno real: a qualidade degrada de forma não-linear conforme tokens preenchem a janela. Efeitos aparecem muito antes dos limites anunciados. Janelas anunciadas de 200k+ tokens frequentemente tem efetividade abaixo de 128k. Recomendação: manter utilização abaixo de 40%.

Sete Lições do Azure SRE Agent

Lição 1: Confiança Habilita Raciocínio

Sistemas com 100+ ferramentas estreitas criaram fragilidade. A mudança veio de confiar no modelo para raciocinar dentro de guardrails amplos.

Antes: Codificar cada cenário em ferramentas específicas Depois: Ferramentas amplas + guardrails + confiança no raciocínio

Lição 2: Aproveite Conhecimento Existente

Em vez de criar abstrações para Azure CLI e Kubernetes, a equipe expos comandos diretamente. LLMs já conhecem essas CLIs dos dados de treinamento.

Lutar contra o conhecimento pre-existente do modelo através de camadas de abstração e contraproducente. O modelo já sabe usar kubectl, az e git. Deixe-o usar.

Lição 3: Coordenação Multi-Agente e Complexa

Escalar de 10 para 50+ agentes especializados criou falhas previsíveis:

Problemas de descoberta: Agentes não sabiam sobre capacidades distantes
Fragilidade de prompt: Um agente mal ajustado corrompia toda a cadeia
Loops infinitos: Agentes delegando trabalho circularmente
Visão de tunel: Limites rigidos impediam raciocínio cross-domain

A solução foi colapsar dezenas de especialistas em poucos generalistas com ferramentas amplas e arquivos de conhecimento sob demanda.

Lição 4: Invista em Capacidades, Não Restrições

Inspirado no conceito de “agent skills” da Anthropic: conhecimento sob demanda em vez de especialização rigida.

O padrão que funciona: poucos agentes generalistas, ferramentas amplas e flexíveis, arquivos de conhecimento carregados quando necessário, guardrails em vez de restrições hard-coded.

Lição 5: LLMs Orquestram, Não Calculam

Despejar 50k tokens de métricas brutas no contexto era o caminho errado.

Errado: Métricas brutas no contexto para análise Certo: Modelo escreve código (pandas/numpy), executa, retorna resultados

Resultado: Eliminou overhead de tokens e estendeu janelas de análise em 10x.

Lição 6: Externalize Planos e Compacte Histórico

Usar checklists explícitos (planners estilo todo) fora do contexto do modelo. Planos em arquivos externos (todo.md), histórico compactado em resumos, estado estruturado preservado.

O Manus usa “recitação”: atualiza todo.md constantemente para manter objetivos na parte recente do contexto.

Lição 7: Trate Outputs Grandes como Fontes de Dados

Quando ferramentas retornam payloads massivos (200k+ tokens de queries de banco):

Intercepte em arquivos baseados em sessão
Modelo inspeciona via ferramentas adicionais
Filtra e analisa incrementalmente
Nunca despeje dados brutos no contexto

Sistema de arquivos como contexto estendido ilimitado.

Tool Call Chaining

Esta pratica emergente reduz 60-70% no overhead de tokens.

Tradicional: Modelo chama Tool A, volta ao modelo, chama Tool B, volta ao modelo, chama Tool C…

Melhorado: Modelo gera script que executa A, B, C em sequência, depois volta ao modelo.

Quando a sequência e previsível, execute-a em um bloco. Reserve o modelo para decisões que requerem raciocínio.

Técnicas do Manus: KV-Cache

Manus mantem ratio de 100:1 entre tokens de entrada e saida. A chave e otimização de cache.

Com cache no Claude Sonnet: $0.30/MTok
Sem cache: $3.00/MTok

10x de economia quando você mantem prefixos de prompt estáveis.

Práticas para Alta Taxa de Cache

Mantenha prefixos estáveis: Timestamps destroem cache
Arquitetura append-only: Adicione ao contexto, não reordene
Serialização determinística: JSON com chaves ordenadas
Breakpoints explícitos: Marque onde o cache pode ser invalidado

Espaço de Ação Hierárquico

100+ ferramentas causam “Context Confusion”. A solução e hierarquia.

Nível 1 - Atômico: ~20 ferramentas core sempre visíveis (file_write, browser_navigate, bash, message_user)

Nível 2 - Utilitários Sandbox: Comandos CLI via bash para operações mais complexas

Nível 3 - Código e Pacotes: Lógica complexa em cadeias de código, bibliotecas Python

Com 100+ ferramentas visíveis, modelos alucinam parâmetros ou chamam ferramentas erradas. A hierarquia mantem o conjunto visível pequeno enquanto preserva poder total.

Anti-padrões a Evitar

Adicionar/remover ferramentas dinâmicamente (invalida cache)
Compressão agressiva de contexto (perda irreversível)
Esconder erros do modelo (impede aprendizado)
Timestamps em system prompts (destrói cache)
Serialização JSON instável (cache miss)
Contexto muito uniforme (causa colapso de padrão)
RAG dinâmico para definição de ferramentas (gera alucinação)

Princípio do Manus: Introduza variação controlada em serialização, fraseado e ordenação para quebrar padrões repetitivos.

Três Problemas de Contexto

Context Rot

Performance degrada conforme janela enche. Solução: definir thresholds pre-rot (~128k), manter utilização abaixo de 40%, compactar histórico proativamente.

Context Pollution

Informação irrelevante distrai o modelo. Solução: compactação para remover redundancia, preservar paths em vez de conteúdo, sumarização seletiva.

Context Confusion

Modelo não distingue instruções, dados e marcadores. Solução: separar claramente secoes, usar delimitadores explícitos, evitar instruções conflitantes.

Padrões que Sobreviveram a Produção

Ferramentas Amplas: Poucas ferramentas poderosas superam muitas estreitas
Code Interpretation: Para análise determinística, modelo escreve código
Context Compaction: Sumarização contínua do histórico
Progressive Disclosure: Sistema de arquivos baseado em sessão
Tool Chaining: Sequências previsíveis executam em bloco
Preserve Failures: Erros permanecem visíveis para aprendizado

Caso Real: Azure SRE Resolve o Inesperado

O próprio deployment do Azure OpenAI da equipe começou a falhar. Não havia workflow pre-definido. O agente:

Verificou logs de erro
Identificou erro de quota
Consultou limites de subscription
Encontrou a categoria correta de suporte
Abriu um ticket automaticamente
No dia seguinte, quota aumentada

Por que funcionou: Agentes generalistas, ferramentas amplas (CLI real), confiança no raciocínio, contexto limpo e estruturado.

Emergência comportamental surge de contexto bem projetado, não de programação explícita de cenários.

Framework de Design

Quatro operações de Context Engineering:

Write: Escrever informação no contexto. O que entra e em que formato.
Select: Escolher qual informação incluir em cada passo.
Compress: Reduzir sem perder essência. Priorizar reversibilidade.
Isolate: Separar contextos. Sub-agentes com contexto mínimo necessário.

A Filosofia que Funcionou

“Ganhos de performance vieram de remover coisas, não de adicionar complexidade.” — Princípio do Manus AI

Conforme modelos melhoram, sistemas devem reduzir scaffolding, não aumentar. Context engineering foca em encontrar o contexto mínimo efetivo necessário por passo.

Na Victorino Group, aplicamos context engineering governado para empresas que precisam de agentes de IA confiáveis em produção. Se você precisa otimizar seus sistemas agênticos, vamos conversar.