- Início
- The Thinking Wire
- Context Engineering para Agentes de IA: Lições do Azure e Manus
Context Engineering para Agentes de IA: Lições do Azure e Manus
A era do prompt engineering evoluiu. Construir com LLMs não é mais sobre encontrar as palavras certas — e sobre responder: “Qual configuração de contexto tem maior probabilidade de gerar o comportamento desejado do modelo?”
A equipe do Azure SRE Agent descobriu que melhorias no contexto superam upgrades de modelo e otimização de prompts combinados.
Definição
Context Engineering e a disciplina de projetar a arquitetura que alimenta o LLM com a informação certa no momento certo.
“De ao modelo menos escolhas, mais limpas, e gaste seu esforço tornando o contexto pequeno, estruturado e fácil de operar.” — Equipe Azure SRE Agent
Contexto como RAM
Andrej Karpathy propos tratar janelas de contexto como gerenciamento de memória:
- Carregar: O que entra no contexto
- Comprimir: Reduzir sem perder essência
- Paginar: Mover para armazenamento externo
- Computar: Processar externamente
Context Rot e um fenômeno real: a qualidade degrada de forma não-linear conforme tokens preenchem a janela. Efeitos aparecem muito antes dos limites anunciados. Janelas anunciadas de 200k+ tokens frequentemente tem efetividade abaixo de 128k. Recomendação: manter utilização abaixo de 40%.
Sete Lições do Azure SRE Agent
Lição 1: Confiança Habilita Raciocínio
Sistemas com 100+ ferramentas estreitas criaram fragilidade. A mudança veio de confiar no modelo para raciocinar dentro de guardrails amplos.
Antes: Codificar cada cenário em ferramentas específicas Depois: Ferramentas amplas + guardrails + confiança no raciocínio
Lição 2: Aproveite Conhecimento Existente
Em vez de criar abstrações para Azure CLI e Kubernetes, a equipe expos comandos diretamente. LLMs já conhecem essas CLIs dos dados de treinamento.
Lutar contra o conhecimento pre-existente do modelo através de camadas de abstração e contraproducente. O modelo já sabe usar kubectl, az e git. Deixe-o usar.
Lição 3: Coordenação Multi-Agente e Complexa
Escalar de 10 para 50+ agentes especializados criou falhas previsíveis:
- Problemas de descoberta: Agentes não sabiam sobre capacidades distantes
- Fragilidade de prompt: Um agente mal ajustado corrompia toda a cadeia
- Loops infinitos: Agentes delegando trabalho circularmente
- Visão de tunel: Limites rigidos impediam raciocínio cross-domain
A solução foi colapsar dezenas de especialistas em poucos generalistas com ferramentas amplas e arquivos de conhecimento sob demanda.
Lição 4: Invista em Capacidades, Não Restrições
Inspirado no conceito de “agent skills” da Anthropic: conhecimento sob demanda em vez de especialização rigida.
O padrão que funciona: poucos agentes generalistas, ferramentas amplas e flexíveis, arquivos de conhecimento carregados quando necessário, guardrails em vez de restrições hard-coded.
Lição 5: LLMs Orquestram, Não Calculam
Despejar 50k tokens de métricas brutas no contexto era o caminho errado.
Errado: Métricas brutas no contexto para análise Certo: Modelo escreve código (pandas/numpy), executa, retorna resultados
Resultado: Eliminou overhead de tokens e estendeu janelas de análise em 10x.
Lição 6: Externalize Planos e Compacte Histórico
Usar checklists explícitos (planners estilo todo) fora do contexto do modelo. Planos em arquivos externos (todo.md), histórico compactado em resumos, estado estruturado preservado.
O Manus usa “recitação”: atualiza todo.md constantemente para manter objetivos na parte recente do contexto.
Lição 7: Trate Outputs Grandes como Fontes de Dados
Quando ferramentas retornam payloads massivos (200k+ tokens de queries de banco):
- Intercepte em arquivos baseados em sessão
- Modelo inspeciona via ferramentas adicionais
- Filtra e analisa incrementalmente
- Nunca despeje dados brutos no contexto
Sistema de arquivos como contexto estendido ilimitado.
Tool Call Chaining
Esta pratica emergente reduz 60-70% no overhead de tokens.
Tradicional: Modelo chama Tool A, volta ao modelo, chama Tool B, volta ao modelo, chama Tool C…
Melhorado: Modelo gera script que executa A, B, C em sequência, depois volta ao modelo.
Quando a sequência e previsível, execute-a em um bloco. Reserve o modelo para decisões que requerem raciocínio.
Técnicas do Manus: KV-Cache
Manus mantem ratio de 100:1 entre tokens de entrada e saida. A chave e otimização de cache.
- Com cache no Claude Sonnet: $0.30/MTok
- Sem cache: $3.00/MTok
10x de economia quando você mantem prefixos de prompt estáveis.
Práticas para Alta Taxa de Cache
- Mantenha prefixos estáveis: Timestamps destroem cache
- Arquitetura append-only: Adicione ao contexto, não reordene
- Serialização determinística: JSON com chaves ordenadas
- Breakpoints explícitos: Marque onde o cache pode ser invalidado
Espaço de Ação Hierárquico
100+ ferramentas causam “Context Confusion”. A solução e hierarquia.
Nível 1 - Atômico: ~20 ferramentas core sempre visíveis (file_write, browser_navigate, bash, message_user)
Nível 2 - Utilitários Sandbox: Comandos CLI via bash para operações mais complexas
Nível 3 - Código e Pacotes: Lógica complexa em cadeias de código, bibliotecas Python
Com 100+ ferramentas visíveis, modelos alucinam parâmetros ou chamam ferramentas erradas. A hierarquia mantem o conjunto visível pequeno enquanto preserva poder total.
Anti-padrões a Evitar
- Adicionar/remover ferramentas dinâmicamente (invalida cache)
- Compressão agressiva de contexto (perda irreversível)
- Esconder erros do modelo (impede aprendizado)
- Timestamps em system prompts (destrói cache)
- Serialização JSON instável (cache miss)
- Contexto muito uniforme (causa colapso de padrão)
- RAG dinâmico para definição de ferramentas (gera alucinação)
Princípio do Manus: Introduza variação controlada em serialização, fraseado e ordenação para quebrar padrões repetitivos.
Três Problemas de Contexto
Context Rot
Performance degrada conforme janela enche. Solução: definir thresholds pre-rot (~128k), manter utilização abaixo de 40%, compactar histórico proativamente.
Context Pollution
Informação irrelevante distrai o modelo. Solução: compactação para remover redundancia, preservar paths em vez de conteúdo, sumarização seletiva.
Context Confusion
Modelo não distingue instruções, dados e marcadores. Solução: separar claramente secoes, usar delimitadores explícitos, evitar instruções conflitantes.
Padrões que Sobreviveram a Produção
- Ferramentas Amplas: Poucas ferramentas poderosas superam muitas estreitas
- Code Interpretation: Para análise determinística, modelo escreve código
- Context Compaction: Sumarização contínua do histórico
- Progressive Disclosure: Sistema de arquivos baseado em sessão
- Tool Chaining: Sequências previsíveis executam em bloco
- Preserve Failures: Erros permanecem visíveis para aprendizado
Caso Real: Azure SRE Resolve o Inesperado
O próprio deployment do Azure OpenAI da equipe começou a falhar. Não havia workflow pre-definido. O agente:
- Verificou logs de erro
- Identificou erro de quota
- Consultou limites de subscription
- Encontrou a categoria correta de suporte
- Abriu um ticket automaticamente
- No dia seguinte, quota aumentada
Por que funcionou: Agentes generalistas, ferramentas amplas (CLI real), confiança no raciocínio, contexto limpo e estruturado.
Emergência comportamental surge de contexto bem projetado, não de programação explícita de cenários.
Framework de Design
Quatro operações de Context Engineering:
- Write: Escrever informação no contexto. O que entra e em que formato.
- Select: Escolher qual informação incluir em cada passo.
- Compress: Reduzir sem perder essência. Priorizar reversibilidade.
- Isolate: Separar contextos. Sub-agentes com contexto mínimo necessário.
A Filosofia que Funcionou
“Ganhos de performance vieram de remover coisas, não de adicionar complexidade.” — Princípio do Manus AI
Conforme modelos melhoram, sistemas devem reduzir scaffolding, não aumentar. Context engineering foca em encontrar o contexto mínimo efetivo necessário por passo.
Na Victorino Group, aplicamos context engineering governado para empresas que precisam de agentes de IA confiáveis em produção. Se você precisa otimizar seus sistemas agênticos, vamos conversar.
Se isso faz sentido, vamos conversar
Ajudamos empresas a implementar IA sem perder o controle.
Agendar uma Conversa