DeepSeek mHC: Como uma Técnica de 1967 Está Reinventando Redes Neurais

Todo modelo de linguagem que usamos hoje — GPT, Claude, Gemini, Llama — depende de uma técnica introduzida em 2015: conexões residuais. Quando a Microsoft Research publicou o paper do ResNet, resolvia-se o problema do gradiente que desaparece, permitindo redes com centenas de camadas. Desde então, essa técnica tornou-se invisível de tão onipresente.

Em dezembro de 2025, a DeepSeek publicou um paper que pode representar a próxima evolução desse mecanismo fundamental. E a parte mais fascinante: a solução vem de um teorema matemático de 1967.

O Problema: Conexões Residuais Paralelas Explodem

Em 2024, pesquisadores da ByteDance publicaram o conceito de Hyper-Connections (HC), expandindo o fluxo residual único das redes tradicionais para múltiplos fluxos paralelos. A ideia era permitir que dados fluíssem por caminhos treináveis entre camadas, acelerando a convergência em até 1,8 vezes.

O problema surgiu na escala. Quando testado em modelos de 27 bilhões de parâmetros, o sinal amplificou-se em mais de 3.000 vezes conforme atravessava a rede. O treinamento divergiu catastroficamente.

O conceito funcionava, mas sem restrições matemáticas, era inutilizável em escala de produção.

A Solução: Matrizes Duplamente Estocásticas

A DeepSeek respondeu com o mHC — Manifold-Constrained Hyper-Connections. A ideia central é projetar as matrizes de conexão entre camadas em um espaço matemático chamado Politopo de Birkhoff: o conjunto de todas as matrizes duplamente estocásticas.

Uma matriz duplamente estocástica tem três propriedades:

Soma das linhas = 1: o sinal total que sai de cada camada é conservado
Soma das colunas = 1: o sinal total recebido por cada camada é conservado
Valores não negativos: elimina cancelamentos destrutivos de sinal

Com essas restrições, a magnitude do sinal não pode crescer nem diminuir conforme a informação atravessa a rede — independentemente da profundidade.

Para impor essa restrição durante o treinamento, a DeepSeek utilizou o algoritmo Sinkhorn-Knopp, publicado em 1967 por Richard Sinkhorn e Paul Knopp no Pacific Journal of Mathematics. O algoritmo alterna normalização de linhas e colunas iterativamente até convergir para uma matriz duplamente estocástica. Como as matrizes de conexão são pequenas (tipicamente 4×4), o overhead computacional é mínimo.

Resultados Concretos

Em um modelo de 27 bilhões de parâmetros baseado na arquitetura DeepSeek-V3, o mHC demonstrou ganhos consistentes em relação tanto ao baseline (conexões residuais padrão) quanto ao HC da ByteDance:

BBH (raciocínio): baseline 43,8 → HC 48,9 → mHC 51,0
DROP (leitura): baseline 39,2 → HC 43,1 → mHC 45,7
GSM8K (matemática): baseline 62,4 → HC 68,1 → mHC 71,5

O custo adicional de treinamento foi de aproximadamente 6,7%. Em modelos onde o treinamento custa dezenas de milhões de dólares, isso não é desprezível. Mas o ganho em capacidade de raciocínio sem necessidade de dados adicionais pode justificar o investimento.

A Reação da AWS

A AWS posicionou-se como a primeira provedora de cloud a disponibilizar o DeepSeek-R1 como modelo gerenciado no Amazon Bedrock. A estratégia reflete três observações compartilhadas por Andy Jassy durante o AWS re:Invent:

Custo de compute importa. DeepSeek-R1 oferece performance competitiva a US$ 2,19 por milhão de tokens — três a quatro vezes mais barato que alternativas ocidentais.

Diversidade de modelos é essencial. Quando construtores têm liberdade de escolha, usam modelos diferentes para diferentes tarefas. O AWS Bedrock posiciona-se como marketplace unificado.

Segurança enterprise é diferencial. Modelos open-source levantam questões de privacidade e conformidade. O AWS Bedrock Guardrails oferece filtragem de informações sensíveis e controles customizáveis.

A Plataforma DeepSeek

O mHC não existe isoladamente. Ele é parte de um ecossistema de inovações que posicionaram o DeepSeek como referência em eficiência:

Mixture of Experts (MoE): 671 bilhões de parâmetros totais, com apenas 37 bilhões ativados por token
Multi-head Latent Attention (MLA): comprime o KV cache em espaço de menor dimensão
Multi-Token Prediction (MTP): prediz múltiplos tokens com taxa de aceitação de 85-90%
DualPipe: paralelismo inovador que sobrepõe computação e comunicação

O modelo completo (DeepSeek-V3) foi treinado com 2,78 milhões de horas de GPU H800 em 14,8 trilhões de tokens.

Ressalvas Necessárias

Antes de tomar decisões baseadas no mHC, considere:

Escala limitada dos testes. Os resultados publicados cobrem modelos de 3B, 9B e 27B parâmetros. A performance em modelos de 70B+ não foi demonstrada publicamente.

Adoção depende de reprodução. Laboratórios independentes precisam validar os resultados em suas próprias arquiteturas. Trabalhos como “mHC-lite” (arXiv:2601.05732) já buscam simplificar a implementação.

6,7% não é sempre desprezível. Para treinos que custam US$ 100 milhões ou mais, isso representa milhões de dólares adicionais.

Contexto geopolítico. Modelos DeepSeek são open-source, mas originados na China. Empresas em setores regulados devem avaliar questões de conformidade ao considerar uso direto via API da DeepSeek.

A Lição Mais Profunda

O mHC demonstra um padrão recorrente: as soluções mais impactantes em tecnologia frequentemente vêm de redescobrir e recontextualizar conhecimento existente.

1967: Sinkhorn e Knopp publicam teoria sobre matrizes duplamente estocásticas
2015: He et al. criam conexões residuais (ResNet)
2024: ByteDance expande para fluxos residuais paralelos
2025: DeepSeek combina HC + Sinkhorn-Knopp = mHC

A inovação está na síntese, não na invenção. Attention (2017) recontextualizou mecanismos de alinhamento de tradução. Transformers recontextualizaram self-attention. O mHC recontextualiza teoria de matrizes de 1967.

A implicação estratégica é clara: investir em fundamentos matemáticos e em equipes com profundidade teórica pode gerar mais retorno do que perseguir a última arquitetura do momento.

O que Fazer com Essa Informação

Para líderes de tecnologia: monitore quais modelos de 2026 implementam mHC. Reavalie decisões de build vs. buy — modelos menores com mHC podem igualar modelos maiores sem. Use plataformas que permitam trocar modelos sem reescrever aplicações.

Para equipes técnicas: estude o paper original (arXiv:2512.24880). Experimente com DeepSeek-R1-Distill no AWS Bedrock. Valorize fundamentos de álgebra linear e otimização convexa — eles são cada vez mais relevantes. Acompanhe variantes como mHC-lite (arXiv:2601.05732).

Referências:

DeepSeek AI. “mHC: Manifold-Constrained Hyper-Connections.” arXiv:2512.24880 (2025)
Zhu et al. “Hyper-Connections.” arXiv:2409.19606 — ICLR 2025
He et al. “Deep Residual Learning for Image Recognition.” arXiv:1512.03385 (2015)
DeepSeek AI. “DeepSeek-V3 Technical Report.” arXiv:2412.19437 (2024)
Sinkhorn, R. & Knopp, P. “Concerning Nonnegative Matrices and Doubly Stochastic Matrices.” Pacific Journal of Mathematics, 21(2), 343-348 (1967)
AWS. “DeepSeek-R1 models now available on AWS.” aws.amazon.com/blogs/aws/deepseek-r1-models-now-available-on-aws/