成都网站建设维护app开发公司哪家好求推荐
2026/6/20 5:35:15 网站建设 项目流程
成都网站建设维护,app开发公司哪家好求推荐,网站设计应该怎么做,金坛建设网站文章梳理了DeepSeek两大技术mHC和Engram的演进历程。mHC技术源于残差连接#xff0c;经字节HC架构改进#xff0c;通过流形约束解决了训练不稳定问题#xff0c;优化了模型信息骨架#xff1b;Engram技术从N-gram到Over-Encoding#xff0c;发展为动态条件记忆系统#x…文章梳理了DeepSeek两大技术mHC和Engram的演进历程。mHC技术源于残差连接经字节HC架构改进通过流形约束解决了训练不稳定问题优化了模型信息骨架Engram技术从N-gram到Over-Encoding发展为动态条件记忆系统优化了模型记忆范式。这两项技术体现了开放协作的科研精神是中国AI研究生态成熟的缩影。DeepSeek 现在是毫无疑问的顶流不管是开源模型还是发表论文都会第一时间引起大家围观。DeepSeek 最近关于 mHC 和 Engram 的两篇文章已经有很多解读而且大家发现这两篇论文背后都有一些来自字节的工作基础。其实这非常正常科研本来是站在前人肩膀上做一些调优和缝补的工作有些是提出想法有些是实验论证也有些是工程落地。这些工作都有价值都在一砖一瓦地构建学术体系。今天就梳理一下这两个技术的演进过程一个是关于模型的「骨架」另一个是关于模型的「记忆」。从 RC 到 HC再到 mHC重塑「信息骨架」在 2015 年之前深度神经网络面临「退化问题」网络并非越深越好当层数堆叠到一定程度模型的性能反而会下降。因为在深层网络中梯度在漫长的反向传播路径中或消失、或爆炸。然后何恺明提出了残差连接 (Residual Connection)以一种简洁优雅的方式解决了这个问题。核心思想就是 y F(x) x不再强迫网络层去学习一个完整的映射 H(x)而是去学习输入 x 与输出 y 之间的「残差」F(x)。这个种「跳跃连接」的方式为信息和梯度提供了一条跨层的「高速公路」使得训练成百上千层的超深网络成为可能。自此残差连接成为从 CNN 到 Transformer 几乎所有现代 AI 模型的底层骨架。ResNet 的论文《Deep Residual Learning for Image Recognition》引用已经超过了 30 万是引用量最高的 AI 论文。作为比较开启了大模型时代的 Transformer 论文《Attention is all You Need》现在的引用量刚过 21 万。由此可见 ResNet 的江湖地位。不过残差虽然简洁优雅但并不完美。因为它只是一条「单行道」信息在网络中以单一向量的形式流动带宽受限于模型的隐藏层维度随着模型规模的扩大信道逐渐成为了网络的瓶颈。于是在 2024 年的时候字节豆包团队大胆地对经典发起了挑战。字节提出了「超连接」Hyper-Connections, HC架构核心思想是将单行道扩建成一座拥有 n 条车道n 为扩展率的「立交桥」。它不再只传递单一的向量 x而是维护一个由 n 个并行信息流组成的「超隐藏矩阵」 H。HC 通过引入可学习的「宽度连接」和「深度连接」矩阵让网络可以动态地决定层内这 n 条车道的信息如何混合以形成当前计算单元如 Attention 或 FFN的输入。层间计算单元的输出如何与原始的 n 条车道信息结合传递给下一层。通过这种设计网络甚至可以自主学习出不同的层间拓扑结构比如某些层并行计算某些层串行计算从而打破了传统残差连接固定的「串行跳跃」模式。实验也证明HC 在几乎不增加计算量的情况下显著提升了模型性能。那么代价是什么呢简单来说立交桥虽然扩展了车道但缺乏「交通管制」。HC 为了追求表达的灵活性打破了 ResNet 的「恒等映射」基石。HC 可学习的连接矩阵是无约束的就意味着信号在经过多层累积后可能会被急剧放大或衰减直接导致训练的不稳定性。再然后就是 DeepSeek 最新提出的 mHC(Manifold-Constrained Hyper-Connections) 了虽然论文发表的时间还短但这是一篇十分 solid 的工作。DeepSeek 做的事情就是在字节 HC 立交桥的基础上设计一套稳定、高效的「智能交通系统」做法就是给 HC 中连接矩阵套上一个「流形约束」。具体而言他们强制要求这个连接矩阵必须是一个「双随机矩阵」这种矩阵的性质是所有元素非负并且每行、每列的元素之和都严格等于 1。这种做法的巧妙之处在于信号守恒当信息流通过一个双随机矩阵进行变换时其输出本质上是输入信号的一种「凸组合」加权平均。这意味着信号的总能量在传递过程中是守恒的从根本上杜绝了信号爆炸或消失的风险。组合封闭性双随机矩阵的乘积依然是双随机矩阵。这意味着无论网络堆叠多深整个系统的稳定性都得到了保证。同时DeepSeek 还为这套优雅的理论提供了坚实的工程支撑。他们手写了底层的 CUDA 算子并通过算子融合、选择性重计算、流水线并行优化等一系列系统工程将 mHC 带来的额外训练时间开销压缩到了 6.7%。总结一下何恺明修了一条信息高速公路字节团队将其拓宽为超级立交DeepSeek 为立交桥设计并安装了稳定高效的智能交通系统使其真正具备了在大规模模型上安全高效传递信息的能力。从 N-gram 到 Over-Encoding再到 Engram优化「记忆范式」与模型的信息骨架并行的是关于模型如何「记忆」的探索。在神经网络时代之前N-gram 曾是 NLP 模型的主力。它通过统计语料库中连续 N 个词的共现频率来预测下一个词。N-gram的优点在于它擅长捕捉局部、固定的文本模式本质上是一种基于查找表的「统计式记忆」缺点就在于数据稀疏性问题和无法捕捉长距离依赖。在深度学习浪潮中 N-gram 逐渐被取代。不过N-gram 的思想并没有被完全抛弃。字节 Seed 团队在之前的「OverEncoding」中将 N-gram 融入了现代 Transformer 架构。简单来说模型的输入端和输出端不必对称。我们可以极大地扩展输入词表的规模用它来容纳海量的 N-gram 组合而保持输出端仍然预测单个词。由于输入端的 Embedding 查找是稀疏操作这样做几乎不增加模型的计算量。Over-Encoding 通过层级化的 N-gram 嵌入将输入词表规模扩展到了千万级别。Seed 团队通过实验发现了对数线性定律模型的训练损失会随着输入词表规模的对数增长而稳定下降。这意味着一个仅有 4 亿参数、但配备了巨大 N-gram 输入词表的模型其性能可以媲美一个 10 亿参数的基线模型。这相当于用「记忆」更大的查找表换取了等效的「算力」更少的模型参数证明了「记忆缩放」是一条独立且有效的性能提升路径。但其局限在于这种记忆是静态的、无差别的所有 N-gram 信息被简单地相加融合进输入表示缺乏上下文的动态选择。DeepSeek 的 Engram 模块正是在 Over-Encoding 等工作的基础上将「静态记忆增强」升级为了「动态条件记忆」。Engram 的核心观点是大模型的工作负载可以分为两部分组合推理需要消耗算力由 MoE 等「条件计算」模块负责。知识回忆对静态、固定模式如实体名、常用短语的重构这部分工作应该交给更高效的「条件记忆」模块。为此DeepSeek 设计了一套完整的系统查找它构建了一个巨大的、可扩展的 N-gram 哈希嵌入表参数可达百亿甚至千亿通过 O(1) 复杂度的查找操作直接获取静态知识。门控与 Over-Encoding 最本质的区别是Engram 会利用当前层的隐藏状态即上下文信息作为查询Query与查找到的 N-gram 记忆进行一次「匹配」生成一个门控信号。只有与当前上下文相关的记忆才会被激活并融入到后续计算中不相关的则被抑制。解耦由于查找地址是确定性的Engram 可以被设计为与主计算流程解耦的独立模块。其巨大的参数表可以被卸载到成本更低的 CPU 内存甚至 SSD 上只在需要时异步加载从而绕过昂贵的 GPU 显存限制。DeepSeek 通过实验发现了「计算」与「记忆」资源分配的 U 型定律无论是纯粹的计算100% MoE还是纯粹的记忆100% Engram都非最优解。将大约 20%-25% 的稀疏参数预算从计算专家再分配给记忆模块才能达到最佳性能。小结总的来说mHC 和 Engram 体现出相似的演进路线一种相互学习、相互启发的螺旋迭代。我感觉计算机领域的研究还是比较 open 和友好的。大家其实也不确定哪个点的优化会带来范式变化一些真正有效的做法也许需要时间和机遇比如谷歌当年就严重低估了 Transformer才把大模型的先发机会让给了 OpenAI反而 OpenAI 现在不怎么发论文了。字节 Seed 和 DeepSeek 团队都敢于挑战传统的架构和范式都愿意投入资源在更大规模参数的模型上验证更可贵的是都愿意把思考过程和实践结果分享给整个学术界。所以学术研究不是零和博弈而是让思想流动、碰撞、演进的过程新的理念配合上扎实的工程验证前人的探索成为后人的阶梯。这也是中国 AI 研究和生态日趋成熟的一个缩影这种合作共赢、不懈优化、持续攀登的精神比任何一个单一的模型、论文都更让人振奋。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询