- Início
- Pensamento
- DeepSeek mHC: Como uma Técnica de 1967 Está Reinventando Redes Neurais
DeepSeek mHC: Como uma Técnica de 1967 Está Reinventando Redes Neurais
Todo modelo de linguagem que usamos hoje — GPT, Claude, Gemini, Llama — depende de uma técnica introduzida em 2015: conexões residuais. Quando a Microsoft Research publicou o paper do ResNet, resolvia-se o problema do gradiente que desaparece, permitindo redes com centenas de camadas. Desde então, essa técnica tornou-se invisível de tão onipresente.
Em dezembro de 2025, a DeepSeek publicou um paper que pode representar a próxima evolução desse mecanismo fundamental. E a parte mais fascinante: a solução vem de um teorema matemático de 1967.
O Problema: Conexões Residuais Paralelas Explodem
Em 2024, pesquisadores da ByteDance publicaram o conceito de Hyper-Connections (HC), expandindo o fluxo residual único das redes tradicionais para múltiplos fluxos paralelos. A ideia era permitir que dados fluíssem por caminhos treináveis entre camadas, acelerando a convergência em até 1,8 vezes.
O problema surgiu na escala. Quando testado em modelos de 27 bilhões de parâmetros, o sinal amplificou-se em mais de 3.000 vezes conforme atravessava a rede. O treinamento divergiu catastroficamente.
O conceito funcionava, mas sem restrições matemáticas, era inutilizável em escala de produção.
A Solução: Matrizes Duplamente Estocásticas
A DeepSeek respondeu com o mHC — Manifold-Constrained Hyper-Connections. A ideia central é projetar as matrizes de conexão entre camadas em um espaço matemático chamado Politopo de Birkhoff: o conjunto de todas as matrizes duplamente estocásticas.
Uma matriz duplamente estocástica tem três propriedades:
- Soma das linhas = 1: o sinal total que sai de cada camada é conservado
- Soma das colunas = 1: o sinal total recebido por cada camada é conservado
- Valores não negativos: elimina cancelamentos destrutivos de sinal
Com essas restrições, a magnitude do sinal não pode crescer nem diminuir conforme a informação atravessa a rede — independentemente da profundidade.
Para impor essa restrição durante o treinamento, a DeepSeek utilizou o algoritmo Sinkhorn-Knopp, publicado em 1967 por Richard Sinkhorn e Paul Knopp no Pacific Journal of Mathematics. O algoritmo alterna normalização de linhas e colunas iterativamente até convergir para uma matriz duplamente estocástica. Como as matrizes de conexão são pequenas (tipicamente 4×4), o overhead computacional é mínimo.
Resultados Concretos
Em um modelo de 27 bilhões de parâmetros baseado na arquitetura DeepSeek-V3, o mHC demonstrou ganhos consistentes em relação tanto ao baseline (conexões residuais padrão) quanto ao HC da ByteDance:
- BBH (raciocínio): baseline 43,8 → HC 48,9 → mHC 51,0
- DROP (leitura): baseline 39,2 → HC 43,1 → mHC 45,7
- GSM8K (matemática): baseline 62,4 → HC 68,1 → mHC 71,5
O custo adicional de treinamento foi de aproximadamente 6,7%. Em modelos onde o treinamento custa dezenas de milhões de dólares, isso não é desprezível. Mas o ganho em capacidade de raciocínio sem necessidade de dados adicionais pode justificar o investimento.
A Reação da AWS
A AWS posicionou-se como a primeira provedora de cloud a disponibilizar o DeepSeek-R1 como modelo gerenciado no Amazon Bedrock. A estratégia reflete três observações compartilhadas por Andy Jassy durante o AWS re:Invent:
Custo de compute importa. DeepSeek-R1 oferece performance competitiva a US$ 2,19 por milhão de tokens — três a quatro vezes mais barato que alternativas ocidentais.
Diversidade de modelos é essencial. Quando construtores têm liberdade de escolha, usam modelos diferentes para diferentes tarefas. O AWS Bedrock posiciona-se como marketplace unificado.
Segurança enterprise é diferencial. Modelos open-source levantam questões de privacidade e conformidade. O AWS Bedrock Guardrails oferece filtragem de informações sensíveis e controles customizáveis.
A Plataforma DeepSeek
O mHC não existe isoladamente. Ele é parte de um ecossistema de inovações que posicionaram o DeepSeek como referência em eficiência:
- Mixture of Experts (MoE): 671 bilhões de parâmetros totais, com apenas 37 bilhões ativados por token
- Multi-head Latent Attention (MLA): comprime o KV cache em espaço de menor dimensão
- Multi-Token Prediction (MTP): prediz múltiplos tokens com taxa de aceitação de 85-90%
- DualPipe: paralelismo inovador que sobrepõe computação e comunicação
O modelo completo (DeepSeek-V3) foi treinado com 2,78 milhões de horas de GPU H800 em 14,8 trilhões de tokens.
Ressalvas Necessárias
Antes de tomar decisões baseadas no mHC, considere:
Escala limitada dos testes. Os resultados publicados cobrem modelos de 3B, 9B e 27B parâmetros. A performance em modelos de 70B+ não foi demonstrada publicamente.
Adoção depende de reprodução. Laboratórios independentes precisam validar os resultados em suas próprias arquiteturas. Trabalhos como “mHC-lite” (arXiv:2601.05732) já buscam simplificar a implementação.
6,7% não é sempre desprezível. Para treinos que custam US$ 100 milhões ou mais, isso representa milhões de dólares adicionais.
Contexto geopolítico. Modelos DeepSeek são open-source, mas originados na China. Empresas em setores regulados devem avaliar questões de conformidade ao considerar uso direto via API da DeepSeek.
A Lição Mais Profunda
O mHC demonstra um padrão recorrente: as soluções mais impactantes em tecnologia frequentemente vêm de redescobrir e recontextualizar conhecimento existente.
- 1967: Sinkhorn e Knopp publicam teoria sobre matrizes duplamente estocásticas
- 2015: He et al. criam conexões residuais (ResNet)
- 2024: ByteDance expande para fluxos residuais paralelos
- 2025: DeepSeek combina HC + Sinkhorn-Knopp = mHC
A inovação está na síntese, não na invenção. Attention (2017) recontextualizou mecanismos de alinhamento de tradução. Transformers recontextualizaram self-attention. O mHC recontextualiza teoria de matrizes de 1967.
A implicação estratégica é clara: investir em fundamentos matemáticos e em equipes com profundidade teórica pode gerar mais retorno do que perseguir a última arquitetura do momento.
O que Fazer com Essa Informação
Para líderes de tecnologia: monitore quais modelos de 2026 implementam mHC. Reavalie decisões de build vs. buy — modelos menores com mHC podem igualar modelos maiores sem. Use plataformas que permitam trocar modelos sem reescrever aplicações.
Para equipes técnicas: estude o paper original (arXiv:2512.24880). Experimente com DeepSeek-R1-Distill no AWS Bedrock. Valorize fundamentos de álgebra linear e otimização convexa — eles são cada vez mais relevantes. Acompanhe variantes como mHC-lite (arXiv:2601.05732).
Referências:
- DeepSeek AI. “mHC: Manifold-Constrained Hyper-Connections.” arXiv:2512.24880 (2025)
- Zhu et al. “Hyper-Connections.” arXiv:2409.19606 — ICLR 2025
- He et al. “Deep Residual Learning for Image Recognition.” arXiv:1512.03385 (2015)
- DeepSeek AI. “DeepSeek-V3 Technical Report.” arXiv:2412.19437 (2024)
- Sinkhorn, R. & Knopp, P. “Concerning Nonnegative Matrices and Doubly Stochastic Matrices.” Pacific Journal of Mathematics, 21(2), 343-348 (1967)
- AWS. “DeepSeek-R1 models now available on AWS.” aws.amazon.com/blogs/aws/deepseek-r1-models-now-available-on-aws/
Se isso faz sentido, vamos conversar
Ajudamos empresas a implementar IA sem perder o controle.
Agendar uma Conversa