Dorialexander(@scaling01):RT @Dorialexander 2026年的第一篇重要论文,DeepSeek mHC:约束流形超连接。 这实际上是一篇工程论文,以已在字节跳动的原始超连接(HC)论文中提出的思想为起点,因此是阅读的先决条件。因此,首先对此进行初步说明。 HC令人惊讶地与我一直关注的两个主要开放问题相交: 1)推理能力似乎源自深度,间接地产生更好的层组合。对于数学和电路变形器来说,这一点尤为引人注目,因为模型已经表明在此子令牌级别上执行形式操作。草稿只是通过另一个时间包装了此过程。但是,我们如何构建更优化的层组合/分配呢?随着我们扩展深度(或通过MoE进行嵌套),这变得更加关键:通过可解释性研究已知,层在很大程度上是多余的。 2)合成数据已成为训练模型的最有效方式,主要是因为我们将“训练”委托给了数据形状。释义实际上是在变压器世界中推断记忆过程的一种方法,因为我们创建了相同知识组件的无尽变化。如果训练真正得到优化,这应该主要是内化的。那么我们如何构建高效的训练呢? 超连接立即与Muon关联在一起并不奇怪。总体思路是相似的:进行更好的训练更新。然而,存在一个重大区别:超连接是一种低层次的改变,将十年前的深度学习基础设施、残差函数F进行转换,并使其可训练化。 目前的标准化方法尺度良好,但却导致“表征崩溃”,即“随着更深的层隐藏特征变得高度相似,增加层的数量后额外层的贡献逐渐减少”。为了解决这个问题,超连接引入了全新的可学习目标“深连接和宽连接”。在理论上,“以各种形式学习超连接矩阵可以创造超越传统顺序和并行配置的层排列,产生软混合甚至动态排列”。 原始HC论文确实成功重新训练了一个小的Olmo-MoE,并展示了“相对于使用500B令牌训练的基线,收敛速度提高了1.8倍,在ARC-Challenge上提高了6个点”。层解释性表明,“基线趋向于表征崩溃”,而HC变体“在特征之间表现出显著较低的相似性”。 DeepSeek论文几乎从旁敲侧击开始,并首先强调了HC原始方法的一个重大成功:数学/拓扑复杂度的增加并没有导致计算开销。然而,它是否可扩展呢? 在移动到更大型模型之后,存在两个主要问题:“随着训练规模的增大,HC引入了不稳定性的潜在风险”,而“关于扩展后的残差流的内存访问成本的硬件效率在原始设计中未得到解决”。具体而言,HC的天真实验扩展导致了“在第12k步时出现的意外损失激增,这与梯度范数的不稳定性高度相关”。 因此,DeepSeek提出了自己的变体,即Manifold-Constrained Hyper-Connections(mHC)。正如名称所示,它限制了可学习目标,防止偏离标识映射,并“有效地将残差连接矩阵约束在由双随机矩阵构成的流形内”。 数学部分(4.1和4.2)非常优雅,但显然并不是最困难的部分。论文的实质核心是“4.3高效训练设计”,他们简单地: 1)编写三个新的mHC内核,这些内核“采用混合精度策略以最大化数值精度而不影响速度,并将多个操作与共享内存访问融合为统一的计算内核,以减少内存带宽瓶颈” 2)通过在正向传播后丢弃“mHC内核的中间激活,并在反向传播过程中动态重新计算它们”来管理大量内存开销 3)将管道并行性调整为“由于mHC在管道阶段之间具有显著的通信延迟”,因此“为了防止阻塞通信流,我们在专用的优先计算流上执行MLP(即FFN)层的Fpost,res内核” 总体而言,论文的实际弹性不是证明超连接可以扩展工作。而是:我们内部有能力围绕高度实验性的研究思想重新设计完整的训练环境的所有方面(内核、内存管理、节点间通信)。 这就是使你成为前沿实验室的所在。

#### 内容简介 本文介绍2026年重大工程方向论文——DeepSeek mHC(流形约束超连接)。mHC深植于字节跳动提出的Hyper-Connections(HC)方案,直击深度学习模型“表示塌缩”和层间特征冗余的核心难题。在原始HC方法中,通过可学习的残差连接矩阵,有效提升了模型的收敛速度和推理能力,但大规模场景下出现稳定性和内存瓶颈等新问题。DeepSeek团队以流形约束(即限制在双随机矩阵空间)提升了训练过程的稳定性,并用混合精度、内存回收与高优先级通信流等多项系统级优化,展示了全栈工程创新实力。 #### 社区观点 社区关注超连接结构带来的训练复杂度和梯度稳定性,多数认为流形约束(mHC)在理论和实践上均有独特价值,但其通用性和长远收益还需大模型领域更多对比实验。许多专业人士提到,深度学习的结构创新与工程优化需同步推进,仅靠结构升级难以独立解决表示塌缩等顽疾,数据生成、正则化依然很重要。此外,HC与mHC推动了底层系统,比如高效内核和通信并发技术,也能为后续AI基础设施升级提供参考。 #### 内容导读 本文聚焦AI训练机制的前沿创新:DeepSeek在字节跳动HC的基础上,提出流形约束超连接(mHC)以解决残差结构中的表示塌缩与训练不稳定问题,并详细介绍了大型系统架构与工程优化方案。适合关注AI模型原理、系统提效和底层创新落地的专业读者。

评论