Context Engineering para Agentes de IA: Licoes do Azure e Manus

A era do prompt engineering evoluiu. Construir com LLMs nao e mais sobre encontrar as palavras certas — e sobre responder: “Qual configuracao de contexto tem maior probabilidade de gerar o comportamento desejado do modelo?”

A equipe do Azure SRE Agent descobriu que melhorias no contexto superam upgrades de modelo e otimizacao de prompts combinados.

Definicao

Context Engineering e a disciplina de projetar a arquitetura que alimenta o LLM com a informacao certa no momento certo.

“De ao modelo menos escolhas, mais limpas, e gaste seu esforco tornando o contexto pequeno, estruturado e facil de operar.” — Equipe Azure SRE Agent

Contexto como RAM

Andrej Karpathy propos tratar janelas de contexto como gerenciamento de memoria:

Carregar: O que entra no contexto
Comprimir: Reduzir sem perder essencia
Paginar: Mover para armazenamento externo
Computar: Processar externamente

Context Rot e um fenomeno real: a qualidade degrada de forma nao-linear conforme tokens preenchem a janela. Efeitos aparecem muito antes dos limites anunciados. Janelas anunciadas de 200k+ tokens frequentemente tem efetividade abaixo de 128k. Recomendacao: manter utilizacao abaixo de 40%.

Sete Licoes do Azure SRE Agent

Licao 1: Confianca Habilita Raciocinio

Sistemas com 100+ ferramentas estreitas criaram fragilidade. A mudanca veio de confiar no modelo para raciocinar dentro de guardrails amplos.

Antes: Codificar cada cenario em ferramentas especificas Depois: Ferramentas amplas + guardrails + confianca no raciocinio

Licao 2: Aproveite Conhecimento Existente

Em vez de criar abstracoes para Azure CLI e Kubernetes, a equipe expos comandos diretamente. LLMs ja conhecem essas CLIs dos dados de treinamento.

Lutar contra o conhecimento pre-existente do modelo atraves de camadas de abstracao e contraproducente. O modelo ja sabe usar kubectl, az e git. Deixe-o usar.

Licao 3: Coordenacao Multi-Agente e Complexa

Escalar de 10 para 50+ agentes especializados criou falhas previsiveis:

Problemas de descoberta: Agentes nao sabiam sobre capacidades distantes
Fragilidade de prompt: Um agente mal ajustado corrompia toda a cadeia
Loops infinitos: Agentes delegando trabalho circularmente
Visao de tunel: Limites rigidos impediam raciocinio cross-domain

A solucao foi colapsar dezenas de especialistas em poucos generalistas com ferramentas amplas e arquivos de conhecimento sob demanda.

Licao 4: Invista em Capacidades, Nao Restricoes

Inspirado no conceito de “agent skills” da Anthropic: conhecimento sob demanda em vez de especializacao rigida.

O padrao que funciona: poucos agentes generalistas, ferramentas amplas e flexiveis, arquivos de conhecimento carregados quando necessario, guardrails em vez de restricoes hard-coded.

Licao 5: LLMs Orquestram, Nao Calculam

Despejar 50k tokens de metricas brutas no contexto era o caminho errado.

Errado: Metricas brutas no contexto para analise Certo: Modelo escreve codigo (pandas/numpy), executa, retorna resultados

Resultado: Eliminou overhead de tokens e estendeu janelas de analise em 10x.

Licao 6: Externalize Planos e Compacte Historico

Usar checklists explicitos (planners estilo todo) fora do contexto do modelo. Planos em arquivos externos (todo.md), historico compactado em resumos, estado estruturado preservado.

O Manus usa “recitacao”: atualiza todo.md constantemente para manter objetivos na parte recente do contexto.

Licao 7: Trate Outputs Grandes como Fontes de Dados

Quando ferramentas retornam payloads massivos (200k+ tokens de queries de banco):

Intercepte em arquivos baseados em sessao
Modelo inspeciona via ferramentas adicionais
Filtra e analisa incrementalmente
Nunca despeje dados brutos no contexto

Sistema de arquivos como contexto estendido ilimitado.

Tool Call Chaining

Esta pratica emergente reduz 60-70% no overhead de tokens.

Tradicional: Modelo chama Tool A, volta ao modelo, chama Tool B, volta ao modelo, chama Tool C…

Melhorado: Modelo gera script que executa A, B, C em sequencia, depois volta ao modelo.

Quando a sequencia e previsivel, execute-a em um bloco. Reserve o modelo para decisoes que requerem raciocinio.

Tecnicas do Manus: KV-Cache

Manus mantem ratio de 100:1 entre tokens de entrada e saida. A chave e otimizacao de cache.

Com cache no Claude Sonnet: $0.30/MTok
Sem cache: $3.00/MTok

10x de economia quando voce mantem prefixos de prompt estaveis.

Praticas para Alta Taxa de Cache

Mantenha prefixos estaveis: Timestamps destroem cache
Arquitetura append-only: Adicione ao contexto, nao reordene
Serializacao deterministica: JSON com chaves ordenadas
Breakpoints explicitos: Marque onde o cache pode ser invalidado

Espaco de Acao Hierarquico

100+ ferramentas causam “Context Confusion”. A solucao e hierarquia.

Nivel 1 - Atomico: ~20 ferramentas core sempre visiveis (file_write, browser_navigate, bash, message_user)

Nivel 2 - Utilitarios Sandbox: Comandos CLI via bash para operacoes mais complexas

Nivel 3 - Codigo e Pacotes: Logica complexa em cadeias de codigo, bibliotecas Python

Com 100+ ferramentas visiveis, modelos alucinam parametros ou chamam ferramentas erradas. A hierarquia mantem o conjunto visivel pequeno enquanto preserva poder total.

Anti-padroes a Evitar

Adicionar/remover ferramentas dinamicamente (invalida cache)
Compressao agressiva de contexto (perda irreversivel)
Esconder erros do modelo (impede aprendizado)
Timestamps em system prompts (destroi cache)
Serializacao JSON instavel (cache miss)
Contexto muito uniforme (causa colapso de padrao)
RAG dinamico para definicao de ferramentas (gera alucinacao)

Principio do Manus: Introduza variacao controlada em serializacao, fraseado e ordenacao para quebrar padroes repetitivos.

Tres Problemas de Contexto

Context Rot

Performance degrada conforme janela enche. Solucao: definir thresholds pre-rot (~128k), manter utilizacao abaixo de 40%, compactar historico proativamente.

Context Pollution

Informacao irrelevante distrai o modelo. Solucao: compactacao para remover redundancia, preservar paths em vez de conteudo, sumarizacao seletiva.

Context Confusion

Modelo nao distingue instrucoes, dados e marcadores. Solucao: separar claramente secoes, usar delimitadores explicitos, evitar instrucoes conflitantes.

Padroes que Sobreviveram a Producao

Ferramentas Amplas: Poucas ferramentas poderosas superam muitas estreitas
Code Interpretation: Para analise deterministica, modelo escreve codigo
Context Compaction: Sumarizacao continua do historico
Progressive Disclosure: Sistema de arquivos baseado em sessao
Tool Chaining: Sequencias previsiveis executam em bloco
Preserve Failures: Erros permanecem visiveis para aprendizado

Caso Real: Azure SRE Resolve o Inesperado

O proprio deployment do Azure OpenAI da equipe comecou a falhar. Nao havia workflow pre-definido. O agente:

Verificou logs de erro
Identificou erro de quota
Consultou limites de subscription
Encontrou a categoria correta de suporte
Abriu um ticket automaticamente
No dia seguinte, quota aumentada

Por que funcionou: Agentes generalistas, ferramentas amplas (CLI real), confianca no raciocinio, contexto limpo e estruturado.

Emergencia comportamental surge de contexto bem projetado, nao de programacao explicita de cenarios.

Framework de Design

Quatro operacoes de Context Engineering:

Write: Escrever informacao no contexto. O que entra e em que formato.
Select: Escolher qual informacao incluir em cada passo.
Compress: Reduzir sem perder essencia. Priorizar reversibilidade.
Isolate: Separar contextos. Sub-agentes com contexto minimo necessario.

A Filosofia que Funcionou

“Ganhos de performance vieram de remover coisas, nao de adicionar complexidade.” — Principio do Manus AI

Conforme modelos melhoram, sistemas devem reduzir scaffolding, nao aumentar. Context engineering foca em encontrar o contexto minimo efetivo necessario por passo.

Na Victorino Group, aplicamos context engineering governado para empresas que precisam de agentes de IA confiaveis em producao. Se voce precisa otimizar seus sistemas agenticos, vamos conversar.