2026/4/17 18:49:19
网站建设
项目流程
网站和网页的关系,网站收录问题,东莞企业免费建站,天津哪里做网站最好简介#xff1a;2025年末#xff0c;DeepSeek发布了一种叫mHC的新型神经网络架构#xff0c;CEO亲自署名。这项技术解决了一个十年悬而未决的问题#xff1a;如何让网络连接模式可学习而不导致训练崩溃。但论文只验证到270亿参数——在万亿参数的今天只是中小规模2025年末DeepSeek发布了一种叫mHC的新型神经网络架构CEO亲自署名。这项技术解决了一个十年悬而未决的问题如何让网络连接模式可学习而不导致训练崩溃。但论文只验证到270亿参数——在万亿参数的今天只是中小规模。这究竟是一次扎实的学术贡献还是DeepSeek下一代旗舰模型的预热海报本文用零门槛的语言拆解mHC的核心原理与战略意图。一、DeepSeek的mHC一次精巧的工程突破还是下一代AI的预告2025年的最后一天中国AI公司DeepSeek发布了一篇技术论文介绍了一种叫做mHC流形约束超连接的新型神经网络架构。CEO梁文锋亲自署名并上传。这篇论文在技术圈引发了不小的讨论。但对于大多数人来说一个合理的问题是这东西到底是什么为什么值得关注这篇文章试图用不假设任何技术背景的方式解释mHC解决了什么问题以及我对它的判断。二、神经网络的交通管制问题2.1 一个类比信息如何在网络中流动想象一座100层的大楼每层都有一个办公室。一份文件从一楼送进去需要逐层处理最终从100楼输出结果。这就是神经网络的基本工作方式信息比如你输入的问题进入网络经过几十甚至上百个层的处理最终输出答案。问题来了如果每一层都对文件做一点修改100层下来原始信息可能面目全非甚至完全丢失。更糟糕的是当我们需要反馈信息告诉网络哪里做错了以便改进时这个反馈也要穿越100层——它很容易在中途衰减到几乎为零或者放大到失控。这就是深度神经网络训练中的经典难题梯度消失和梯度爆炸。2.2 十年前的解决方案残差连接2015年微软的研究团队提出了一个简单但极其有效的解法叫做残差连接Residual Connection。思路很直接在每一层旁边开一条直通电梯。原始信息不仅会经过这一层的处理还会直接复制一份跳过这一层和处理结果加在一起传给下一层。输出 这一层的处理结果 原始输入直接跳过这个设计保证了一件事即使某些层学坏了或者没学到东西信息仍然可以通过直通电梯完整地传下去。训练时的反馈信号也能顺畅地回传。残差连接的效果立竿见影。它让研究者第一次能够训练超过100层的网络并且迅速成为几乎所有深度学习模型的标配——包括今天的GPT、Claude、Gemini等大语言模型。2.3 残差连接的代价固定的连接模式但残差连接有一个隐性的代价那条直通电梯的权重是固定的恒定为1.0。这意味着网络无法自己学习哪些层之间应该连接得更紧密哪些应该更松散。所有层之间的跳跃连接都是一模一样的。打个比方这就像一座大楼里所有电梯都只能从每一层直达下一层间距完全相同。你无法设置从3楼直达15楼的快速通道或者7楼到9楼之间需要额外加强联系。理论上如果网络能自己学习这些连接模式它可能会发现人类设计师想不到的更优结构。三、一次失败的尝试Hyper-Connections2024年有研究者提出了一个大胆的想法把残差连接的固定权重变成可学习的矩阵。让网络自己决定层与层之间应该如何连接。这个方法叫做Hyper-Connections超连接。理论上这释放了巨大的设计空间。网络不再被固定的连接模式束缚可以自由探索最优的信息路由方式。但实际结果是灾难性的。当DeepSeek团队尝试用这种方法训练一个270亿参数的模型时他们发现信息在层与层之间传递时强度被放大了3000倍。这就像你在100层大楼里传递一份文件每经过一层文件的音量就被放大一点。100层下来原本正常的文件变成了震耳欲聋的噪音整个系统彻底崩溃。训练直接失败无法继续。四、mHC约束即自由4.1 DeepSeek的诊断DeepSeek团队意识到问题的根源不在于让连接可学习这个想法本身而在于缺乏约束。当连接矩阵可以取任意值时信息在层间的增益就失去了控制。某些路径可能会把信号放大某些可能会压缩累积起来就是灾难。他们的核心洞见是保留连接的可学习性但严格控制信息的总量守恒。4.2 一个直觉类比想象你有四杯水代表网络中的四条信息流。在无约束的Hyper-Connections中你可以随意增减每杯水的量——这就是混乱的来源。mHC的规则是你可以在杯子之间任意倒水但总水量必须保持不变而且每个杯子既要倒出去也要接收。这个约束在数学上叫做双随机矩阵Doubly Stochastic Matrix矩阵的每一行加起来等于1每一列加起来也等于1。它保证了信息只能被重新分配而不能被放大或消灭。DeepSeek使用了一种叫做Sinkhorn-Knopp算法的数学工具把原本无约束的连接矩阵投影到满足这个约束的空间上。4.3 结果效果是显著的指标无约束Hyper-ConnectionsmHC信号放大倍数~3000x崩溃~1.6x稳定训练额外开销—6.7%推理性能提升—2.1%BIG-Bench HardmHC让网络在保持训练稳定的同时获得了自由学习连接模式的能力。DeepSeek在30亿、90亿、270亿参数的模型上都验证了这一点。五、我的判断一篇点到为止的论文5.1 这篇论文证明了什么mHC确实解决了一个真实的问题如何让网络连接可学习而不崩溃。这是一个优雅的工程方案——找到了表达能力和训练稳定性之间的精确平衡点。在270亿参数规模上它工作得很好。5.2 这篇论文没有回答什么规模验证不足。270亿参数在今天只能算中小规模。DeepSeek自己的V3模型有6710亿参数GPT-4估计在万亿级别。mHC在这些规模上是否依然有效论文没有给出答案。与其他技术的交互不明。当今前沿模型普遍使用MoE混合专家架构mHC与MoE结合后的行为特性没有详细展示。开销的规模效应。6.7%的额外训练开销在270亿参数时可以接受但这个数字是否会随规模线性增长在万亿参数级别这可能意味着数百万美元的额外成本。5.3 这篇论文的真正意图CEO亲自署名并上传技术论文这在学术界不常见。结合DeepSeek的历史模式R1模型发布前也有类似的论文预热我的判断是这是一篇产品预告而不是完整的学术论证。DeepSeek很可能已经在更大规模上验证了mHC但选择保留数据等待下一代旗舰模型发布时一起公布。论文的功能是宣告方向——“我们找到了解决残差连接局限性的方法”建立优先权——在学术上占位制造预期——为下一个产品发布造势六、对普通读者意味着什么如果你不是AI从业者mHC对你的直接影响是零。它是基础设施层面的改进不会立即改变你使用AI产品的体验。但如果你关注AI行业的竞争格局这篇论文传递了一个信号DeepSeek仍在架构层面进行原创性探索而不仅仅是跟随OpenAI或Google的技术路线。在一个大多数公司都在拼谁能堆更多算力的行业里试图通过更聪明的架构设计来弯道超车这至少是一种值得关注的策略——尤其考虑到DeepSeek面临的芯片获取限制。mHC是否真的会成为下一代AI模型的基础架构答案要等DeepSeek的下一个旗舰模型发布才能揭晓。现在的这篇论文更像是一张预告片的海报它告诉你电影要来了但具体好不好看还得进影院才知道。