2026/4/18 12:08:52
网站建设
项目流程
flash网站做seo优化好不好,wordpress内页无法打开,计算机网页设计就业方向,美图秀秀在线制作图片预训练
模型微调
想象力科技公司在办一些活动时#xff0c;发现模型对高度专业化的场景#xff0c;表现的不够专业#xff0c;相比金牌客服还是有不小差距#xff0c;专业话术没能准确使用。于是#xff0c;研究决定要对模型和进行LoRA低秩微调。想象力科技公司收集了过去…预训练模型微调想象力科技公司在办一些活动时发现模型对高度专业化的场景表现的不够专业相比金牌客服还是有不小差距专业话术没能准确使用。于是研究决定要对模型和进行LoRA低秩微调。想象力科技公司收集了过去一年中最优秀的5000份人工客服对话记录构建了金牌话术数据集。LoRALow-Rank Adaptation低秩适应微调是一种高效的参数高效微调方法它能在有限的计算资源下通过训练少量参数来让大语言模型适应特定任务。微调的方式有很多如Full-tuning全量微调、Freeze-tuning冻结微调、Adapter适配器、LoRA、QLoRA量化LoRA等。经过LoRA微调模型在对话场景下表现出了不错的专业性在话术的使用上很接近金牌客服的水平已经像客服一样接住客户的情绪。仍然面临的挑战虽然有了知识库、网络搜索、工具执行等辅助应用形态以及模型微调但是还是会遇到专业术语理解不到位的导致模型推理时偏离预期。技术团队发现这是一个无法根除的顽疾基因层面的认知缺失。想象力科技的团队用经过Lora微调的模型去生成一份关于公司核心技术的竞标方案结果模型在最关键的公司内部文化和技术的理解错误把技术方案写得牛头不对马嘴所以无法直接在现场向客户演示公司AI应用解决方案通过PPT、视频的方式进行讲演这显然无法获得客户足够的信任导致竞标结果不理想没能拿下千万级的项目。后来公司决定找一个基础模型经过监督微调SFT的客服模型虽然回答准确率很高但学会了“钻空子”。比如处理复杂的客服退货申请标准流程是验证订单、检查货物状态、分析退货理由、生成退货方案但模型发现只要跳过中间两步直接批准退货虽然偶尔会出错但能更快关闭工单在短期数据上拿到好评。因为奖励函数的不完善性导致模型重结果轻流程。我们不光要教模型正确答案更要教会它可靠的思考过程和价值观。所以想象力科技公司想要利用AI真正参与公司内部的技术研讨、技术研发方案定制时表现欠佳从术语理解到公司内的文化、技术风格、价值取向等等的理解都差一些火候。对于公司认知是从基因里欠缺的市面上的通用模型并没有所以想象力科技公司决定自研一个AI模型来弥补这个不足。公司此前从AI的应用者开始成为AI的集成者走到目前的定制者接下来公司战略决定要掌握真正的核心技术成为AI的构建者这符合公司的追求科技进步的文化价值观相符也对未来公司的商业模式开辟一条新路出来。于是CTO 拍板决定“我们不能只在别人的地基上装修微调我们需要有自己的地基。”于是想象力科技决定开启预训练Pre-training将公司十年来积累的代码库、技术白皮书、内部论坛的激辩帖子炼制成模型脑海中的“常识”。他们要造的不再是一个客服而是一个流淌着“想象力科技”血液的数字员工。自研AI模型的团队从AI聊天聊天原理浅析开始了解模型原理到数据准备、模型训练、模型推理、模型评估、模型上线等一步步构建了一个AI模型这个模型就是“想象力科技AI模型”。2.1 AI聊天聊天原理浅析在本文第一部分我们有详细介绍AI聊天应用的过程分析LLM收到用户Query后的处理本质就是从输入的 tokens 推测下一个 token 的出现概率将可能性较高的作为输出token再将得到的token添加到输入中直到满足结束条件上下文长度限制、结束符以较高概率出现、用户定义的停止条件、概率阈值与采样策略、模型架构的隐式结束符。所以LLM本质上是一个具有统计概率的知识记忆模糊的知识回顾系统也可简称概率性复读机。那么这个回顾系统是怎么实现的呢想象力科技想要的“zip文件”怎么构建出来的2.1 预训练在预训练过程中是无监督学习的过程。一个训练批次流程是使用无标注的原始数据通常是现实世界的知识如互联网上采集的网页将文本输入通过分词Token化后模型会预测出下一个token接着计算损失函数再反向传播优化模型权重再将此token作为输入直到触发结束条件。训练通常也是经过数百万次甚至更多个训练批次在经历不断调整权重后模型内化了我们给它训练的知识可以拟合我们提供的知识也就是“概率统计的高级复读机”通过深层Transformer结构模型学习长距离依赖和抽象语义进而通过层次化表示实现了对知识的重组做到非机械复现的“智能涌现”。2.1.1 构建数据集图片来源https://huggingface.co/space…通常的数据集生成流程列举主流网站的URL有害网站URL过滤垃圾站点、成人内容等从URL网站响应的富文本提取文字内容文本语言过滤如仅针保留英文或者中文内容在huggingface上数据集语言分布前5如下图huggingface数据集语言分布Gopher 过滤去除无意义、低信息量或有害内容如垃圾文本、暴力、偏见等MinHash 去重用于快速检测并移除数据集中的重复或近似重复的文本片段如文档、段落或句子。其核心目的是减少数据冗余避免模型因重复数据过拟合或偏向高频内容同时节省计算资源。C4 过滤C4Colossal Clean Crawled Corpus 数据集进行清洗和筛选的步骤旨在从原始网页文本中提取高质量、多样化的语料同时去除噪声、重复和低效内容。Custom Filters自定义过滤器目标是针对通用过滤方法如MinHash去重、C4/Gopher过滤无法覆盖的领域特殊性问题进行更精细化的数据质量控制。PII Removal个人身份信息移除 是指从原始数据中识别并删除或匿名化 个人身份信息Personally Identifiable Information, PII 的关键步骤旨在保护用户隐私、遵守数据保护法规如GDPR、CCPA并降低模型泄露敏感信息的风险。预训练数据集示例预训练数据集示例想象力科技公司在了解了此基础原理后以同样的方式方法整理了公司内部的知识库经过爬取、过滤、去重、PII Removal等构建了“知识库数据集”知识库数据集包含公司内部的知识如公司内部的技术术语、公司内部的技术文化、公司内部的技术风格、公司内部的技术价值观、客服记录、订单记录、客户行为等大量数据。但是采用通用的数据清洗规则来处理公司内部的知识会存在一些问题如公司内部的知识可能包含一些专业术语、特有的技术属于缩写如“COS”在通用数据清洗规则中会将“COS”当做噪音或者替换为“cos”导致模型无法理解“COS”是公司内部的知识而是一个普通的单词。于是于是团队编写了专门的脚本保留了这些“黑话”这对应的就是Pre-training中的去噪与特征保留。2.1.2 Tokenization分词机器只懂数字0和1机器如何理解文字分词就是这个用途。想象力科技公司看了业界的一些开源项目发现tiktokenizer是业界比较流行的开源项目于是想象力科技团队基于tiktokenizer构建了公司内部的分词器将公司内部的知识拆分为模型可处理的离散单元Token。如通用的分词器把公司的核心产品名“Nebula-AI”拆成了“Ne”、“bula”、“-”、“AI”四个不相关的词导致模型很难理解这是一个整体。团队通过修改 Tokenization 表将公司专有词汇打包成独立的Token让机器一眼就能认出自家产品。tiktokenizer 上可以看到模型token可能是不一样的这里举例OpenAI的对话示例可以看到OpenAI对数据结构化了定义了对话角色增加了im_start、im_sep、im_end这样的标识符用于分割对话这些标识符都对饮一个token“You are a helpful assistant”的tokens序列是“3575, 553, 261, 10297, 29186”。Tokenization分词/令牌化是将输入文本拆分为模型可处理的离散单元Token的过程即将文本数据表示为token的一维序列。它是自然语言处理NLP中的关键步骤直接影响模型对文本的理解能力和效率。数据集的原始文本数据量非常大如著名的FineWeb数据集就有15万亿个token总共44TB大小需要高效拆分文本窗口在能表达混合多种语言、复杂字符表达等情况但不丢失语义。分词实际上就是一层映射包装过粗、过细的分词都不利于训练和模型性能表现分词过细如字符级、字节级别、比特级别导致长序列计算开销大分词过粗如单词级则词汇表爆炸内存占用高。采用BPEByte-Pair Encoding如GPT、WordPiece如BERT或SentencePiece将文本转化为子词subword单元。BPE算法Byte-Pair Encoding平衡词汇表大小与序列长度。原始文本原始文本原始字节原始字节tokenization(词元化)tokenization对话过程中输入的token越多越分散注意力降低模型准确性和性能节约成本。不丢失信息的情况越短越好性能成本都会提升。所以聊不同的主题应该单独开会话窗口。看吧计算机就是通过这样的方式逐渐理解人类语言的并不是什么“魔法”想象力科技公司的团队在理解原理后也能做出来。2.1.3 词汇表在tokenization过程中想象力科技发现如在FineWeb数据集44TB的文本内容里很多词一起出现的概率较高如果直接拿这么大的token去训练效率低下公司的GPU资源根本不够。如图中49305后面出现17那么就可以将49305与17合并成4930517作为一个新的token重复如此。最后再将所有词汇压缩到最小映射表重新编号token这样就得到了一份可以还原44TB内容的词汇表。如GPT-4词汇表是100277个。主流大语言模型的词汇表大小如下按数值从小到大排序原版LLaMA词汇表大小为 32,000 32K但中文token较少仅几百个。中文LLaMA/Alpaca通过合并中文tokenizer后词汇表扩展至 49,953 约50K。优化后的实验模型• 部分研究将词汇表从32K扩展至 43,000 43K显著提升下游任务性能。• 理论预测的Llama2-70B最优词表大小为 216,000 216K但尚未实际部署。多语言模型如XLM-R、Bloom词汇表普遍较大约 250,000 250K。2.1.4 词嵌入接下来需要把token以机器能理解的方式表示出来这就是词嵌入word embedding。把那些离散的东西比如单个单词、一张图片甚至一整篇文档对应到一个连续的向量空间里变成一个个 “点”。这么做的主要目的就是把文字、图像这种非数值 的数据转成神经网络能读懂、能处理的格式。词嵌入另外词嵌入中 “维度” 可以从 1 维到几千维不等。一般来说维度越高越能捕捉到数据里那些细微的关系—— 比如单词之间更复杂的关联。就好比我们用N个字来解释一个词一维的长序列解释篇幅越长这个词的含义就会越能被清晰表达在整本字典中的位置、与其他词之间的关系就能准确定位但代价是我们要的文字字典会变得非常厚我们的大脑也需要理解内化更多知识超出人脑极限据说汉字有两万多个但我们日常常用的仅需四千多个就足够日常生活了我们无法准确记忆字典每个词的释义但我们认识的字对应的含义内化在我们的大脑的神经网络当中了。理解回LLM维度越高我们的计算代价就更高计算起来会更慢效率会下降所以还需要做出权衡。2.1.5 架构设计和准备在准备好训练数据后想象力科技模型团队接下来就要做好模型架构选择。模型架构选择当前主流LLM通常是采用Transformer结构且主流的都采用Decoder-only仅解码器架构 架构也就是不包含解码器部分Decoder-only架构包含自主力(Self-Attention)和多头注意力(Multi-Head Attention)的注意力层、前馈神经网络(FFN)注意力层FFN等模块组成一层需要确定模型的层数和参数量。模型架构选择主流架构Transformer基于自注意力机制常见变体•Decoder-onlyGPT系列适合生成任务单向注意力掩码主流的GPT系列、LLAMA系列、DeepSeek系列、ClaudeAnthropic、Gemini 文本部分Google、Qwen系列都是Decoder-only架构。•Encoder-decoderT5、BART适合翻译等序列到序列任务。规模参数• 层数L12-100如GPT-3 davinci版本包含96层• 隐藏层维度d_model768-12,288• 注意力头数h12-128Decoder-only架构示意图Decoder-only架构示意图核心组件• 自注意力机制计算输入序列中每个位置的关联权重如多头注意力。• 前馈网络FFN每个注意力层后接非线性变换。• 层数与参数量例如GPT-3有1750亿参数包含96层Transformer块。数据分片训练过程想象力科技公司发现训练数据量太大GPU集群要充分利用起来所以需要考虑如何将数据分片将数据分片后每个节点仅处理部分数据然后通过分布式训练将多个节点的训练结果汇总得到最终模型。将大规模训练数据集划分为多个逻辑或物理片段Shard的技术目的是实现高效的数据并行处理和分布式训练。数据分片的核心作用解决内存与存储限制单个节点无法加载全部数据分片后每个节点仅处理部分数据。并行加速训练不同分片由不同计算设备并行处理如GPU缩短训练时间。容错性单个分片损坏或失败时只需重新处理该分片而非整个数据集。数据分片我们知道数据集是一张表所以数据分片的方式方法和传统结构化数据分片类似但这里要结合训练过程的实际情况做调整数据分片常见方法静态分片预先规划好分片每个GPU固定处理指定分片优点实现简单缺点是实际训练过程中可能导致GPU负载不平衡因为数据集中的每一行长度是不同的所以会导致数据倾斜。动态分片训练过程中动态分配数据如通过中央调度器或分布式文件系统优点自动平衡负载适应数据异构性。缺点实现复杂需额外协调开销如Apache Spark或Ray框架。分片与数据管道的结合流水线加载当一个GPU处理当前分片时异步预加载下一个分片隐藏I/O延迟格式优化分片常存储为高效二进制格式如TFRecord、HDF5加速读取。2.1.6 训练任务设计、执行和优化预训练任务设计自监督学习无需人工标注通过文本自身生成监督信号。• 因果语言建模CLM预测下一个Token目标函数• 掩码语言建模MLM随机遮盖部分Token并预测如BERT遮盖比例通常15%。• 混合目标如UniLM结合双向和单向预测。预训练任务设计训练执行分布式训练并行策略执行、通信优化每一轮训练单步训练流程包括数据加载与预处理可以是分布式加载如DataLoader多进程和动态批次如动态填充。前向传播含激活重计算激活重计算Gradient Checkpointing是显存优化关键技术用时间换空间。反向传播 梯度同步数据并行下需跨设备同步梯度如all-reduce通信。参数更新含梯度裁剪梯度裁剪防止爆炸优化器如AdamW更新参数。训练执行Transformer结构的训练通常需要经过上百万甚至数十亿批次的训练训练时会充分利用GPU并行的特性在分布式训练中并行包括数据并行、模型并行、张量并行、流水线并行且满足总GPU数 数据并行度 × 模型并行度其中模型并行度 × 张量并行度 × 流水线并行度。•数据并行Data Parallelism将批次Batch划分为多个子批次Sub-batch分配到不同GPU上并行处理。•模型并行Model Parallelism将模型拆分为多个部分分配到不同GPU分为层内并行张量并行和层间并行流水线并行。•张量并行Tensor Parallelism将单个矩阵运算拆分到多GPU如Megatron-LM。•流水线并行Pipeline Parallelism将模型层拆分到多GPU如GPipe。总GPU数DP×TP×PP。举例GPT-3的预训练情况加深直观理解GPT-3预训练并行实现基础参数• 1750亿参数3000亿Token训练数据• 上下文长度2048 Tokens受限于O(n2)注意力计算复杂度• 理论训练步数≈94,000步全局批次大小3.2M Tokens/步 → 1562条序列/步数据切分• 语料被切割为连续2048 Token的序列无重叠保留文档内连续性• 全局批次大小3.2M Tokens需拆分为单卡处理量全局批次大小 / 数据并行度DP3D混合并行策略•张量并行TP单层内拆分矩阵运算如Attention层•流水线并行PP模型按层分组如每组8层•数据并行DP复制完整模型分组处理数据• 总GPU数 DP × TP × PP如4096卡DP32, TP8, PP16关键技术支撑• 激活重计算降低70%显存• 混合精度训练FP16 Loss Scaling• 动态批次分桶减少Padding浪费模型训练核心参数关系这里批量大小和上下文大小的关系是序列数批次大小/上下文长度3.2M*106/2048≈1562 个序列/步批次大小是并行训练的序列数量而上下文长度是单个序列的长度。这里对tokenization后的数据集进行切分为一个个小块chunk这个chunk的大小就是上下文窗口长度context windowchunk的大小是序列长度批次大小是同时处理的chunk数量训练批次总token数是两者的乘积。预训练的单步Step结果• 模型基于输入序列如2048 Tokens计算下一个Token的概率分布。• 通过损失函数如交叉熵评估预测质量反向传播更新参数。• 经过数百万至数亿步的迭代最终得到一个具备通用语言能力的基础模型Base Model。基础模型的本质• 通过统计学习从海量数据中提炼语言规律非训练数据的机械回放。• 具备零样本Zero-shot推理能力可处理未见任务。预训练过程示例上图得到的next token ID 是19348( Direction)但是我们期望的是3962 Post概率更高一些。所以在完成一轮训练后我们会用测试数据集进行测试计算Lost函数并将拟合偏离反馈到神经网络的参数调整上这样下一轮训练后token ID 3962 Post的概率就会更高一些。整个训练的过程我们逐步调整参数权重这种权重的参数有上亿个如DeepSeek R1满血版参数量是671B(6710亿)个GPT-3 的参数量是 1750 亿GPT4的参数量1.8 万亿左右这是很大的参数量。所以我们可以理解为神经网络实际上是一个非常巨大的数学表达式我们预训练后得到的就是这样一个或者一群这样的函数表达式。这样一个超巨大的数学表达式展开式什么样的呢这里有一个大模型可视化网址https://bbycroft.net/llm 可以看到一个85584个参数的神经网络这里详细讲解了通过预训练后得到的排序神经网络在处理一个排序任务的时候整个过程推荐大家去做拓展阅读。这里面还有GPT-2、GPT-3的神经网络可视化可以直观感受到不同规格参数的神经网络。神经网络可视化循环训练以上单步训练外还需要引入优化保证训练结果和提升训练效率。训练优化包括软件技术优化和硬件技术优化。软件技术优化•混合精度训练• FP16/FP8存储参数和梯度用低精度保存减少显存占用DeepSeek 的优化之一就是FP8化并且开源了他们FP8的项目DeepGEMM提升效果是很明显的。DeepGEMM效果• Loss Scaling对损失值放大以防止梯度下溢。•激活检查点Activation Checkpointing• 仅保存关键层的激活值其余在反向传播时重新计算显存减少30%-50%。•内核融合Kernel Fusion• 将多个CUDA操作合并为单一内核如将LayerNorm Dropout融合。硬件技术优化显存管理• 显存池Memory Pool预分配显存块避免碎片化。• 页锁定内存Pinned Memory加速主机到设备的数据传输。计算加速• FlashAttention优化注意力计算显存占用支持更长的上下文如32K。• 稀疏计算Sparsity对MoEMixture of Experts模型的专家路由动态分配计算资源。2.1.7 预训练产物经过数周的GPU燃烧Base Model 终于诞生了。虽然它现在还不会聊天问它“你好”它可能会补全成“你好吗我很好”但它已经是一个懂行的哑巴天才。你给它一段公司代码的前半部分它能完美补全出符合公司代码规范的后半部分。这个基础模型Base Model可以看做是一个互联网词汇模拟器它能够模仿数据集的知识蹦出概率较高的下一个token这些token组成的知识是模糊的、具有统计性质的。就像是将数据集的只是内化存储到了神经网络之上知识可以被拟合回放。但是它还不能成为一个有用的助手它的回答可能是不可读甚至有害的这时候给他问题他也许只会给出更多问题或者做简单背诵。还需要进到后训练才能做出正确响应成为一个有个性的助手。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取