2026/4/18 17:12:40
网站建设
项目流程
绵阳做seo网站公司,如何解析域名,建站要多少钱,html写的网页怎么在手机上看什么是大模型#xff1f;接下来我将继续用业余视角#xff0c;聊聊大模型
大模型#xff08;Large Model#xff0c;简称LM#xff09;#xff0c;完整全称应该叫“人工智能预训练大模型”#xff0c;是指具有超大规模参数#xff08;通常在十亿个以上#xff09;通过…什么是大模型接下来我将继续用业余视角聊聊大模型大模型Large Model简称LM完整全称应该叫“人工智能预训练大模型”是指具有超大规模参数通常在十亿个以上通过海量数据预训练得到的神经网络模型它能够通过训练获得通用的语言和图像等模态的理解和生成能力并展现出涌现能力图示为国内外知名大模型参数量示例。图片来源知乎数说新语大模型的大不仅体现在参数量大还包括架构规模大、训练数据大、算力需求大图片来源知乎小枣君广义的大模型包括语言大模型、视觉大模型、多模态大模型等狭义的大模型特指我们常用的大语言模型LLM如ChatGPT、DeepSeek等。图片来源自绘读了以上文字您可能要骂了说好的用人话解释AI的呢就这上来整一堆概念让我怎么看别骂了盆友接下来将为您用人话解释大模型需要点初中数学知识你看又骂。01 什么是模型先说结论在计算机领域所谓的模型本质上指函数。用烂掉的房地产行业举个栗子。假如您是一个在杭城漂泊的牛马经过多年努力您打算买一套房子安家。经过大量调研您收集了以下数据样本实际样本可能包括户型面积、位置、朝向、交通、卫生间数量、学区等要素为了便于解释进行简化图片来源自绘在不考虑其他要素的条件下您看中了一套房源距离主城区35km那么怎么预测售价是多少您说简单这题我会。并快速在坐标系中画出了数据分布图并发现了距离主城区越远售价越低的趋势。图片来源自绘分析了以上数据分布后你打算选择初中二年级学过的二元一次函数y wx b来描述与主城区的距离x与售价y的关系w和b是函数中未知的参数只要求得w和b的具体数值再把x 35带入的上述函数就能得到距离主城区35km时房屋的售价。到此预测房价的问题被转化为确定w和b的具体数值的数学问题也就是说您为房价预测建立了一个数学模型y wx b。实际您也只能求得一个最优解使得曲线距离所有的样本点总误差最小。图片来源自绘瓦特等下…模型参数预测难道网上神乎其神的大模型几亿参数的那种就这没错为了方便盆友们理解我对大模型进行了抽象简化。**大模型的真相就是一个形式复杂参数极多的一个函数。**通过以上栗子其实您已经掌握了大模型预训练和推理的原理**1.模型预训练**模型厂商通过海量数据求参数w和b来最大化的拟合数据分布。上线发布供用户使用。**2.模型推理**用户将x输入函数后台进行计算返回y。这就是您和DeepSeek聊天时您输入文本模型返回答案的过程。02 什么是大模型我们已经知道模型的真相——函数。在实际应用中模型的种类有很多上述例子中我们使用的是**线性回归模型**可以用于应对一些简单的预测问题。但是如果将户型面积、位置、朝向、交通、卫生间数量、学区等要素全部考虑线性回归模型就显得过于简单无法应对复杂的数据分布了比如图示这种。图片来源http://playground.tensorflow.org莫方为了能够拟合复杂的数据分布有很多模型可以用比如逻辑回归、随机森林、决策树等。目前大模型所采用的是神经网络模型模仿人脑的神经元,对于样本的一个或多个输入x值经过网络多个隐藏层的层层计算最终得到一个或多个输出y值以上所说的多个都可以根据需要设置具体的值。图片来源自绘隐藏层的计算主要参数是w和b作为一个复杂模型还有很多其他参数这里不做过多解读有兴趣的盆友可以深入了解。图片来源自绘以OpenAI的GPT-3大模型为例隐藏层一共有96层每层的神经元数量达到2048个极其庞大的网络结构参数数量达到惊人的1750亿模型性能更是那四个字——遥遥领先。03大模型长什么样我们常用的生成式AI都会提供多个模型供用户选择每个模型采用了不同的训练策略可以满足用户不同的需求。图片来源https://www.kimi.com1.大模型的组成部分以大家常用的kimi为例官方提供了2个预训练模型供用户推理使用。我们可以去魔搭社区国内的开源大模型免费下载平台网址https://modelscope.cn看看k2模型包括哪些文件。当前开源的大模型通常以数据文件形式发布它主要是由权重参数、配置文件两类文件构成。其中权重参数是模型在海量数据上训练后得到的参数集合是大模型最核心的组成部分。图片来源https://www.modelscope.cnKimi-K2-Base大模型共计包含了75个文件主要为json和safetensors文件。其中61个safetensors是存储权重参数的文件格式。模型的参数存储在该文件中大模型的参数量达到几十亿甚至上千亿因此该文件的数据量也是最大的最大的约20G。2.大模型的尺寸在魔搭社区中检索阿里最新发布的Qwen3大模型可以看到有多种尺寸有0.6B8B32B235B等这个值表示的是就是模型的总参数量B是Billion十亿的缩写也就是说Qwen3最小的模型参数量有6亿个最大的参数量有2350亿个。图片来源https://www.modelscope.cn模型参数越多表示神经网络层次和神经元个数越多模型就越复杂实际推理性能越好。您可能会说既然模型尺寸越大性能越好那么为什么要训练小尺寸的模型因为越大尺寸的模型要求的显存越大一般设备上是没法运行的。为了在手机或AI眼镜上轻量化运行就需要部署小尺寸模型。让我们以Qwen3最小尺寸的模型0.6B为例简单计算推理时需要的羡慕这样能有个概念。假设每个参数为32位bit浮点数float32)1.已知1字节Byte) 8位bit2.计算每个参数的字节数32位bit 4字节Byte)3.推导计算机内存占用1GB 1000MB1MB 1000KB1KB 1000Byte1GB 10^9Byte4.计算最终结果0.6B 0.6 * 10^9个总字节数为0.6 * 10^9 * 4 2.4 * 10^9 Byte 总显存为2.4GB以上仅仅是指考虑了参数部分的显存占用情况实际全参推理时还会有其他显存开销显存占用为目前的6倍以上即2.4 * 6 14.4GB。0.6B的模型尚且如此那235B模型的显存占用只能说是Amazing。所以用户使用尺寸大的大模型只能通过线上调用大模型大模型厂商可以有很多显卡供咱使用。图片来源https://www.kimi.com04 如何训练大模型在第1部分什么是模型的例子中已经简单表达了大模型的训练逻辑。就是通过海量的数据求参数值最大化的拟合数据分布获得最小化的误差。简述具体训练过程先准备海量高质量数每个数据样本包括特征x类比房源与主城区距离和真实值Y类比售价再选择一个具体的模型结构比如Transfomer模型自动初始化w和b的参数值。将海量数据x经过神经网络层层计算得到一个预测y再将预测值y与数据的真实值Y比较求得两者的差值称之为损失loss再根据损失值反向调整w和b直至损失值最小为止这是的模型预测值会无限接近真实值实际预测值y和真实值Y不可能完全相等也就是说损失值Loss不为0。参数学习的过程叫做模型预训练。用户调用的过程则叫做模型推理。图片来源知乎小枣君看完以上内容相信您基本对大模型的原理和尺寸有所了解。想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”