2026/4/18 6:56:08
网站建设
项目流程
网站建设教程最新资讯,永州 网站建设,网站流行趋势,wordpress 外观 编辑目录 文章目录目录Scaling Laws 第一定律大模型训练全流程预训练阶段#xff08;Pre-Training#xff09;微调阶段#xff08;Fine-Tuning#xff09;提示工程阶段#xff08;Prompting#xff09;Scaling Laws 第一定律 OpenAI 在 2020 年的论文中提出了 Scaling LawsPre-Training微调阶段Fine-Tuning提示工程阶段PromptingScaling Laws 第一定律OpenAI 在 2020 年的论文中提出了 Scaling Laws扩展定律证明了 LLM 的性能以交叉熵损失衡量遵循一定的数学幂律关系Power-law。即大预言模型的 Loss损失函数值与模型参数量N、训练数据量D、计算资源量C这 3 者之间存在着稳定且可预测的数学关系。L损失函数收到 N、D、C 的影响。α、β、γ常数系数α≈0.076、β≈0.095、γ≈0.05实际值因任务不同略有调整。如上图所示模型参数量N模型的总参数规模越大损失越低。例如将参数量从 1 亿增至 10 亿损失下降幅度超过线性增长预期。计算资源量C训练所用的浮点运算量FLOPs与损失呈反向幂律关系即更多的计算资源可显著提升模型效果。训练数据量D在 C 和 N 固定时增加 D 可以缓解过度拟合但存在边际递减效应。如下图所示当 C 固定时需要找到一个最低点的 D。所以大模型训练需要关注 3 要素的平衡扩展。若仅扩大其中一项而其他两项受限将导致收益显著降低。例如若模型参数增加 8 倍训练数据需至少增加 5 倍才能避免过拟合。简而言之Scaling Laws 证明了随着 N、D、C 的增加LLM 的性能会持续改善而且在相当长的发展阶段内没有明显的天花板效应。也因此 Scaling Law 为 AI 行业发展提供了关键的底层逻辑支撑 ——规模优先于算法在 Scaling Law 之前AI 研究普遍专注在算法创新如层数、注意力头数、宽度与深度比例。Scaling Law 之后通过简单地扩大模型的参数规模就可以持续获得性能提升。这解释了为什么从 GPT-3 到 GPT-4模型的参数规模一直在扩大。先扩大规模再进行算法改进和优化才是正确的路径。当前已知最大的模型是 GPT-4万亿级而 OpenAI 员工透露 GPT-5 的参数量是 GPT-4 的 10 倍。大模型训练全流程阶段数据驱动训练成本训练效果1. 预训练阶段依赖海量无标注数据万亿级数据量。成本最高千卡万卡。博而不精。2. 微调阶段依赖高质量标注数据百万~千万级数据量。成本中等十卡百卡。精而专用。3. 提示词阶段依赖提示词和上下文数据百~千级数据量。零算力成本。高效应用。预训练阶段Pre-TrainingRandom Model随机模型模型的初始状态所有权重参数都是随机赋值的不具备任何语言理解或生成能力。Pre-Training Data预训练数据海量、多样化的无标注文本数据规模通常达到万亿 tokens 级别如 GPT-3 训练数据约 45TB 文本涵盖书籍、网页、论文、新闻等确保模型接触到广泛的语言现象和知识。通过这些数据模型能自动捕捉语法、语义、逻辑关系和世界常识。数据来源包括 Common Crawl互联网网页爬取数据和社交媒体数据如微博、推特等。Pre-Trained Model预训练模型通过 “自监督学习” 从海量数据中经过预训练后得到的基础模型如 GPT、Llama、BERT具备通用语言理解和生成能力但不理解特定私域知识和不擅长特定任务。是后续所有优化的基础是大模型能力的 “源头”。微调阶段Fine-TuningIn-Domain Data领域数据/指令数据小规模、高质量的标注数据规模通常为百万-千万 tokens 级别但标注成本高需人工设计或筛选。分为两类领域数据特定场景的数据如医疗文献、法律条款指令数据人类撰写的 “指令-响应” 或 “问题-答案” 对。Fine-Tuned Model微调后模型使用 In-Domain Data 对基础模型的部分参数进行 “定制” 后的最终模型以优化特定任务性能如客服、代码生成等。常见的微调方式有SFTSupervised Fine-Tuning有监督微调直接用指令数据训练让模型学会理解和执行任务。RLHFReinforcement Learning from Human Feedback人类反馈强化学习先让人类对模型输出打分训练一个 “奖励模型”再用强化学习如 PPO 算法让模型优化输出使其更符合人类偏好。提示工程阶段Prompting在不修改模型参数的前提下通过 Prompting 或 In-Context Learning 引导模型输出所需结果In-Context Learning上下文学习在输入中加入少量 few-shot examples让模型通过模仿示例完成任务无需训练。Prompting提示工程通过精心设计的 Prompt引导模型生成特定格式或内容的输出。