2026/4/18 3:55:15
网站建设
项目流程
广州中心网站建设,乌兰浩特网站制作,公司内部小程序开发公司,室内设计方案ppt作业想转AI产品经理#xff0c;但一看术语就头大#xff0c;什么Token、Embedding、RLHF、Temperature……这都是啥#xff1f;
说实话#xff0c;这些词确实唬人。培训机构恨不得每个概念单独开一门课卖你钱#xff0c;技术文章又写得跟论文似的#xff0c;看完更懵。今天老…想转AI产品经理但一看术语就头大什么Token、Embedding、RLHF、Temperature……这都是啥说实话这些词确实唬人。培训机构恨不得每个概念单独开一门课卖你钱技术文章又写得跟论文似的看完更懵。今天老王把这事儿给你捋清楚。我先讲大模型20个的核心概念包括基础架构模型训练模型能力等等。每个概念我都用大白话讲不装、不绕、不堆术语。看完这篇你和算法对话、面试AI产品经理、读技术文档都不会再发懵。另外老王还给大家准备了优质的免费AI教学大家不用到处找课程了全部免费直接跟着学习就行先关注文末有参考方法一、基础架构篇大语言模型LLM说白了大语言模型就是一个超级预测下一个字的系统。很多人一听大模型就觉得神秘其实它的核心逻辑简单到爆给它一句话的开头它预测接下来最可能出现什么字。就像你打字时的输入法联想只不过它的联想能力被训练到了变态的程度。为什么叫大两个维度参数量大训练数据大。参数可以理解为这个系统的记忆单元GPT-4 有超过万亿级参数相当于记住了人类几乎所有公开的文字知识。重点说一下大模型不是理解语言而是统计语言。它见过太多人类写的句子所以能非常准确地预测下一个词应该是什么。这就是为什么它能写诗、写代码、回答问题本质上都是在做概率预测。所以别被智能两个字骗了它是统计学的极致应用不是真正的思考。Transformer 架构这事儿得说清楚Transformer 是2017年谷歌发明的神经网络架构现在几乎所有大模型都用它。之前的模型处理文字像读书一样必须从头读到尾一个字一个字来。Transformer 不一样它能同时看全文这叫做自注意力机制。打个比方读今天天气很好我决定去公园这句话传统模型读到公园时已经快忘了开头说的是天气。但 Transformer 能让公园这个词同时关注到天气好、我、决定理解它们之间的关系。核心优势就两点并行计算快长距离依赖强。这让模型可以做到几万字的上下文理解也是大模型能进行长对话的底层原因。没有 Transformer 就没有今天的 ChatGPT。神经网络其实啊神经网络就是一堆数学函数的嵌套模仿人脑神经元的连接方式。别被神经两个字吓到它和真正的大脑差远了。核心结构很简单输入层接收数据隐藏层做计算变换输出层给出结果。每一层都是一堆节点节点之间有连接权重。工作原理就是不断调整这些权重。比如训练一个识别猫狗的网络一开始它乱猜猜错了就调整权重让它下次猜对的概率更高重复几百万次它就学会了。这个调整过程叫反向传播数学上就是求导和梯度下降。简单说就是找到让错误最小的那组权重参数。老王建议啊理解神经网络不用懂数学细节抓住输入-变换-输出和反复调整权重这两个核心就够了。深度学习很多人不知道深度学习就是层数很多的神经网络仅此而已。传统神经网络可能就2-3层深度学习动辄几十层、几百层。层数多了能干嘛能学到更抽象的特征。拿图像识别举例第一层可能只认识边缘和线条第二层能组合成形状第三层能识别眼睛鼻子再往上能认出这是一张人脸。层数越深抽象能力越强。2012年是个转折点那年 AlexNet 用深度神经网络碾压了传统方法从此深度学习一发不可收拾。成功的秘诀就三个大数据、大算力、好算法尤其是 GPU 的普及让深度网络的训练成为可能。这才是关键深度学习不是新发明是硬件算力追上了理论。机器学习机器学习是个大类深度学习只是它的一个分支。机器学习的本质是什么让机器从数据中自己找规律而不是人类手写规则。传统编程是你告诉机器怎么做机器学习是你给机器看一堆例子它自己学着做。三大类要分清楚监督学习有标签教它什么是对的无监督学习没标签让它自己发现数据里的结构强化学习靠奖惩试错中成长。应用场景极广推荐系统、风控模型、搜索排序、语音识别全是机器学习。大模型也是机器学习的产物只是规模和复杂度到了新高度。机器学习是 AI 的核心方法论其他都是它的具体实现形式。二、模型训练篇预训练Pre-training说白了预训练就是让模型读万卷书的阶段。在这个阶段模型被喂入海量文本目标很单纯预测下一个词。它不需要人工标注只要有文本就行。维基百科、书籍、网页、代码几千亿个词喂进去。这个过程贵得离谱。GPT-4 的预训练据估算花了上亿美元需要几万块顶级 GPU 跑几个月。但价值也大预训练完的模型学会了语法、常识、逻辑推理甚至一些专业知识。重点说一下预训练出来的模型叫基座模型它什么都懂一点但不会好好说话也不会按你的要求回答问题。就像一个读了很多书但没学会交流的书呆子。这就是为什么后面还需要微调和对齐。微调Fine-tuning微调就是在预训练好的基础上针对特定任务再训练一下。打个比方预训练像上完大学通识教育微调像进专业实验室跟导师做项目。模型已经有了基础能力微调让它更擅长某个具体领域。微调的数据量不用太大几千到几万条高质量样本就够。成本比预训练低几个数量级。现在流行的方式叫 LoRA只调整模型的一小部分参数既便宜又有效。应用场景很多让模型学会用你公司的话术回答客服问题让模型专门写法律文书让模型精通医学问答。绝大部分企业落地大模型微调是性价比最高的路径。RLHF人类反馈强化学习这事儿有意思RLHF 就是让人类当裁判教模型什么样的回答是好的。预训练和微调之后的模型虽然懂很多但它可能胡说八道、输出不安全内容、不按指令办事。RLHF 的核心是人类对模型的多个回答进行排序告诉它哪个更好模型据此调整自己的行为。具体流程先让模型生成多个回答人工标注员排序用这些排序训练一个奖励模型然后用强化学习让模型学会生成得分高的回答。ChatGPT 能火RLHF 功不可没。它让模型学会了说人话——有礼貌、承认不知道、拒绝危险请求。记住一点RLHF 是让模型从能力强变成好用的关键一步。监督学习绝大部分人搞错了监督学习是最常用也是最直观的机器学习方式。监督的意思是有老师老师就是标签。你告诉模型这张图是猫那张图是狗。模型学会了输入和标签之间的映射关系之后见到新图片就能预测。监督学习的核心公式输入 X 映射到输出 Y。分类问题Y 是类别回归问题Y 是数值。垃圾邮件识别、房价预测、医学诊断都是典型应用。局限也很明显需要大量人工标注数据这个成本很高。标注质量也直接影响模型效果。大模型的微调阶段大量使用监督学习让模型学会按照人类期望的格式和风格回答问题。无监督学习我跟你讲无监督学习是让模型自己在数据里找规律没人告诉它什么是对的。典型任务是聚类和降维。聚类就是把相似的东西归到一起比如把用户分成几个群体降维就是把高维数据压缩便于可视化和后续处理。大模型的预训练其实就是无监督学习。没有人标注这个词后面应该接什么模型自己从几千亿词的语料里学习语言规律。无监督学习的价值在于标注数据贵无标签数据遍地都是。互联网上的文本、图片、视频绝大部分都没有标签。能利用好这些数据就能训练出更强的模型。老王说未来的趋势是用无监督预训练打底再用少量监督数据微调这是性价比最高的路线。三、模型能力篇TokenToken 这个词你天天听但绝大部分人理解错了。很多人以为 Token 就是一个字或一个词其实不是。Token 是大模型处理文本的最小单位它是通过分词算法切出来的片段。英文里 Token 通常是一个词或者词的一部分中文里可能是一个字也可能是半个词。举个例子unbelievable 这个单词可能被切成 un、believ、able 三个 Token。中文的话清华大学可能是两个 Token也可能是四个取决于具体的分词器。为什么要搞这么复杂因为模型没法直接处理文字它只认数字。分词器的任务就是把文本切成 Token然后每个 Token 对应一个编号模型处理的是这些编号序列。Token 数量直接决定成本。调用 GPT-4 按 Token 收费输入输出都算。一篇1000字的中文文章大概是1500-2000个 Token。重点说一下Token 限制也影响模型能力。模型的上下文窗口是按 Token 计算的你的 Prompt 太长留给模型回复的 Token 就少了。估算成本和设计 Prompt 时心里要有 Token 这根弦这是计费的基本单位。Context Window上下文窗口上下文窗口就是模型一次能看到多少内容。你和 ChatGPT 聊天它能记住之前说过什么靠的就是上下文窗口。窗口越大能记住的对话越多处理的文档越长。GPT-3.5 是4K TokenGPT-4 Turbo 到了128KClaude 3 更是到了200K。这个窗口是怎么工作的模型每次推理时会把整个对话历史加上你的新输入一起处理。窗口满了就得砍掉早期内容所以长对话后期你会发现模型忘了开头的事。企业应该特别关注这个参数。文档问答、代码分析、长报告总结都需要大窗口。窗口太小文档塞不进去窗口够大一次能处理一整本书。但这事儿有意思窗口大不等于用得好。研究表明Token 放在窗口中间的内容模型注意力反而最弱这叫迷失在中间问题。所以关键信息要放开头或结尾。上下文窗口是大模型能力的硬约束选模型时这是核心参数。Embedding向量嵌入我跟你讲Embedding 是把文字变成数字的魔法也是语义搜索的底层原理。计算机不认识文字只认识数字。Embedding 的作用是把一段文本变成一个向量也就是一串数字比如768个或1536个浮点数。这串数字承载了这段文本的语义信息。神奇的是语义相近的文本向量也会相近。我喜欢吃苹果和我爱吃水果这两句话虽然文字不同但它们的向量在高维空间里距离很近。这就催生了向量数据库这个新品类。你把几万篇文档都转成向量存起来用户问问题时也转成向量然后找最近邻的那些文档。这就是 RAG 技术的核心——用向量匹配找到相关内容再让大模型基于这些内容回答。Embedding 模型和大语言模型是两回事。OpenAI 有专门的 text-embedding-ada-002 模型只负责把文本变向量不能聊天。做企业知识库、智能搜索、推荐系统Embedding 是必修课。Attention 机制这事儿得说清楚Attention 是 Transformer 的灵魂没有它就没有今天的大模型。传统处理文本的方式是顺序读取读到后面就容易忘前面。Attention 机制让模型在处理每个词时都能回头看全文决定该重点关注哪些词。核心公式就三个矩阵Query、Key、Value简称 QKV。每个词都会生成这三个向量Query 和 Key 做点积算出注意力权重权重决定这个词该把多少注意力分配给其他词然后用权重加权 Value 得到输出。举个例子这只猫很可爱因为它毛茸茸的这句话当模型处理它这个词时Attention 会让它特别关注猫这个词因为它指代的就是猫。Self-Attention 是每个词关注全文所有词这是 Transformer 的核心。还有 Cross-Attention用于让一个序列关注另一个序列比如翻译任务里目标语言关注源语言。Multi-Head Attention 是并行跑多组 Attention每组学习不同的关注模式最后拼起来。GPT-4 有超过100个注意力头。Attention 赋予了模型处理长距离依赖的能力这是语言理解的关键。多模态Multimodal很多人不知道多模态是大模型竞争的新战场纯文本模型已经是上一代产品了。多模态的意思是模型能处理多种类型的信息文本、图像、音频、视频。GPT-4V 能看图说话Gemini 能理解视频这就是多模态能力。技术上怎么实现核心思路是把不同模态都转成向量送进同一个 Transformer 架构。图像用 Vision Transformer 切成小块编码音频用专门的编码器处理最后和文本的 Embedding 一起进入模型。应用场景立刻就爆炸了。拍张照片问这是什么植物、上传一张表格让模型分析、画个草图让模型生成 UI 代码、发段语音让模型总结会议纪要。但这事儿有门槛多模态模型的训练成本比纯文本高得多需要海量的图文配对数据。而且不同模态的对齐是个技术难题让模型理解图片里的猫和文字里的猫是同一个东西没那么容易。做产品要关注多模态这是用户体验升级的大方向但落地时要评估好场景和成本。四、推理与生成篇Prompt EngineeringPrompt Engineering 就是和大模型说话的艺术同一个需求写法不同效果天差地别。本质是什么大模型是根据你的输入预测输出你给的上下文越清晰、越有结构模型的输出就越符合预期。这不是玄学是概率分布的问题。几个核心技巧第一角色设定。告诉模型你是一个资深产品经理它输出的内容就会更专业。模型在训练时见过大量专业角色的写作设定角色等于激活这部分知识。第二任务分解。复杂任务别一句话扔过去要分步骤引导。先分析需求再列出方案最后给出结论一步一步来效果更好。第三示例引导。给模型看几个例子告诉它输出应该长什么样这叫 Few-shot。比起抽象描述例子更直观有效。第四格式约束。明确要求输出 JSON、表格、列表模型会严格遵守便于后续处理。重点说一下Prompt 的位置也有讲究。重要指令放开头和结尾中间内容容易被忽略。另外Prompt Engineering 是使用大模型的必备技能投入时间研究绝对值得。TemperatureTemperature 控制的是模型回答的随机性数值越高越天马行空越低越保守。技术原理是这样的模型输出其实是一个概率分布每个可能的下一个词都有一个概率。Temperature 调整的是这个分布的陡峭程度。Temperature 等于0时模型每次都选概率最高的那个词输出完全确定每次问同一个问题答案一样。Temperature 等于1时按原始概率随机采样输出有变化。Temperature 大于1时概率分布被拉平小概率词也有更大机会被选中输出更随机、更有创意。什么场景用什么值写代码、做数学题、事实问答用低 Temperature比如0.1到0.3需要准确稳定。写故事、做头脑风暴、生成创意文案用高 Temperature比如0.7到1.0需要多样性。重点说一下Temperature 设太高容易胡说八道产生事实错误或逻辑混乱。设太低又会重复啰嗦缺乏变化。老王建议啊默认从0.7开始调根据具体任务再微调这是个需要实验的参数。Top-P / Top-K这两个参数和 Temperature 一样都是控制输出随机性的但方式不一样。Top-K 的逻辑很简单只考虑概率最高的 K 个词其他词直接排除。设 K 等于50模型每一步只在最可能的50个词里选。好处是避免选到特别离谱的词坏处是有时候正确答案刚好在第51位就被错过了。Top-P 更智能一点也叫核采样。它不看数量看累积概率把词按概率从高到低排选到累积概率达到 P 为止。设 P 等于0.9可能只选了5个词如果前5个概率加起来够0.也可能选了100个词如果概率分布很平。实际使用时一般不和 Temperature 同时调。常见做法是固定 Temperature 等于1用 Top-P 控制采样范围。OpenAI 默认 Top-P 等于1等于没限制。Top-P 等于0.9 到0.95是比较常用的范围既保证一定随机性又不会选到太离谱的词。记住一点这些参数没有万能值需要根据任务实验调优。Few-shot LearningFew-shot Learning 是让大模型瞬间学会新任务的秘诀而且不用重新训练。核心思想很简单在 Prompt 里给几个示例模型就能举一反三。你想让模型做情感分析不用写代码、不用准备数据集直接在 Prompt 里写这个电影太无聊了 负面 今天心情超好 正面 这家餐厅服务态度真差模型看了前两个例子就知道第三句该输出负面。为什么能行大模型在预训练时见过海量的问答对和任务示例它学会了从上下文里推断任务模式。你给的例子激活了它的这部分能力。几个实用技巧示例要典型覆盖主要情况。情感分析至少给正面和负面各一个。示例要一致格式统一。如果第一个例子用冒号分隔后面都要用冒号。示例不用太多3到5个通常足够。太多了占用上下文窗口边际收益递减。Few-shot 是最实用的 Prompt 技巧成本低、见效快优先掌握。Zero-shot Learning着实Zero-shot 比 Few-shot 更厉害一个例子都不给模型照样能做任务。怎么做到的直接用自然语言描述任务就行。请把下面这段话翻译成英文请判断这条评论是正面还是负面请从这篇文章中提取关键信息。模型能理解你的指令直接执行。这才是大模型真正神奇的地方。以前的 AI 系统你想让它做什么任务就得准备对应的训练数据。大模型的 Zero-shot 能力意味着你只要会说话就能指挥它干活。但 Zero-shot 不是万能的。复杂任务、需要特定格式输出的任务Zero-shot 效果往往不如 Few-shot。因为纯靠描述容易产生歧义模型理解和你的预期可能有偏差。什么时候用 Zero-shot任务简单直接、输出格式没有严格要求、或者想快速测试时。什么时候用 Few-shot任务有特定模式、希望输出格式一致、或者 Zero-shot 效果不好时。记住一点Zero-shot 是大模型的通用能力体现Few-shot 是精准调教的手段两者结合效果最好。以上详细介绍了下AI必懂的概念后面还会继续更新这个系列最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型 深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】