成都网站logo设计wordpress总是404
2026/4/18 4:39:48 网站建设 项目流程
成都网站logo设计,wordpress总是404,mui做网站,wordpress本地无法打开开源#xff0c;就要开的彻彻底底。 这不#xff0c;Meta一连放出三篇技术文章#xff0c;从大模型适配方法出发#xff0c;介绍了#xff1a; 如何使用特定领域数据微调LLM#xff0c;如何确定微调适配自己的用例#xff0c;以及如何管理良好训练数据集的经验法则。 接…开源就要开的彻彻底底。这不Meta一连放出三篇技术文章从大模型适配方法出发介绍了如何使用特定领域数据微调LLM如何确定微调适配自己的用例以及如何管理良好训练数据集的经验法则。接下来直接进入正题。01适配大模型预训练预训练是指使用数万亿个token数据从头开始训练LLM的过程通常使用自监督算法进行训练。最常见的情况是训练通过自回归预测下一个token也称为因果语言建模。预训练通常需要数千个GPU小时105-107个并分布在多个GPU上进行。预训练的输出模型称为「基础模型」。继续预训练继续预训练也称为第二阶段预训练将使用全新的、未见过的领域数据进一步训练基础模型。这里同样使用与初始预训练相同的自监督算法。通常会涉及所有模型权重并将一部分原始数据与新数据混合。微调微调是以监督方式使用带注释的数据或使用基于强化学习的技术来适配预训练语言模型的过程。与预训练相比微调有两个主要区别在包含正确标签/答案/偏好的注释数据集上进行监督训练而不是自监督训练需要较少的token数千或数百万而不是预训练中需要的数十亿或数万亿其主要目的是提高能力如指令遵循、人类对齐、任务执行等。而要了解微调的现状可以从两个方面入手参数变化的百分比和微调后新增的能力。更改的参数百分比根据更改的参数量有两类算法全面微调顾名思义这包括更改模型的所有参数包括在XLMR和BERT100-300M参数等小模型上所做的传统微调以及对Llama 2、GPT31B参数等大模型上的微调。参数高效微调PEFTPEFT算法只微调少量额外参数或更新预训练参数的子集通常是总参数的1%-6%而不是对所有LLM权重进行离线微调。基础模型新增的能力微调的目的是为了向预训练的模型添加功能比如指令遵循、人类对齐等。聊天微调Llama 2就是一个具有附加指令遵循和对齐能力的微调模型的例子。检索增强生成RAG企业还可以通过添加特定领域的知识库来适配LLMRAG是典型的「搜索驱动的LLM文本生成」。RAG于2020年推出它使用动态提示上下文通过用户问题检索并注入LLM提示以引导其使用检索到的内容而不是预训练的知识。Chat LangChain是由RAG支持的、在Lang Chain文档上流行的Q/A聊天机器人。上下文学习ICL对于ICL通过在提示符中放置原型示例来适配LLM。多项研究表明「举一反三」是有效的。这些示例可以包含不同类型的信息仅输入和输出文本也就是少样本学习推理追踪添加中间推理步骤可参阅思维链COT提示计划和反思追踪添加信息教LLM计划和反思其解决问题的策略可参阅ReACT02选择正确的适配方法要决定上述哪种方法适合特定应用你应该考虑各种因素所追求任务所需的模型能力、训练成本、推理成本、数据集类型等。下面的流程图总结了一些建议可以帮助你选择合适的LLM适配方法。❌ 预训练预训练是LLM训练的重要组成部分它使用token预测变量作为损失函数。自监督算法使得大量数据训练成为可能。例如Llama 2接受了2万亿token的训练。这需要大量的计算基础设施Llama 2 70B需要1,720,320个GPU小时。因此对于资源有限的团队Meta不建议将预训练作为LLM适配的可行方法。在预训练计算成本很高的情况下更新预预训练好的模型权重可能是一种有效的方法来适配特定任务。不过任何更新预训练模型权重的方法都容易出现一种「灾难性遗忘」的现象。比如此前一项研究显示在医疗领域微调训练后的模型在遵循指令和常见问答任务上的性能出现下降。论文地址https://arxiv.org/pdf/2009.03300还有很多研究可以佐证通过预训练获得的通用知识在后续训练过程中可能会被遗忘。❌ 继续预训练鉴于灾难性的遗忘最近的研究表明继续预训练CPT可以导致模型性能的进一步提高而计算成本只是预训练的一小部分。对于需要LLM获得新的转换技能的任务CPT可能是有益的。有研究报告显示继续预训练成功地增加了多种语言能力。但CPT成本极高需要大量的数据和计算资源。比如PYTHIA套件经历了第二阶段的预训练最终得到了FinPYTHIA-6.9B。该模型专为金融数据设计的使用240亿token的数据集进行了18天的继续预训练。此外CPT也容易导致灾难性的遗忘。因此对于资源有限的团队Meta同样不建议将继续预训练训作为LLM适配的可行方法。总而言之在预训练和持续预训练中使用自监督算法和未加注释的数据集微调LLM是资源和成本密集型的不建议将其作为一种可行的办法。✅ 全参微调和参数高效微调PEFT与使用未注释的数据集进行预训相比使用较小的带注释的数据集进行微调是一种更具成本效益的方法。而且微调后模型被证明在法律、医疗或金融等专业领域的广泛的应用中实现了SOTA。微调特别是参数高效微调只需要预训练/继续预训练所需计算资源的一小部分。因此对于资源有限的团队来说这是一个可行的方法来适配LLM。✅ 检索增强生成RAGRAG是另一种流行的LLM适配方法。如果你的应用程序需要从动态知识库例如QA机器人中提取RAG可能是一个很好的解决方案。RAG的系统的复杂性主要在于检索引擎的实现。这种系统的推理成本可能会更高因为输入提示包含了检索到的文档而大多数服务提供商采用按token计费的模式。✅ 上下文学习ICL这是适配LLM最具成本效益的方式。ICL不需要任何额外的训练数据或计算资源使其成为一种具有成本效益的方法。然而与RAG类似随着推理时处理更多的token推理的成本和延迟可能会增加。总之创建一个基于LLM的系统是迭代的上面的流程图概述了这一迭代过程并为LLM适配战略奠定了坚实的基础。03微调还是不微调在第二部分中Meta又谈了谈什么情况下需要微调。在大模型兴起之前微调通常用于参数比较少的模型100M – 300M。而且最先进领域应用程序也是使用监督微调SFT构建的即使用自己专业领域和下有任务的注释数据进一步训练预训练的模型。然而随着更大参数模型的出现1B微调的问题变得微妙了起来。最重要的是大模型需要更大的资源和商业硬件来进行微调。下表1列出了三种情况下微调Llama 2 7B和Llama 2 13B模型的峰值GPU内存使用量。你可能会注意到QLoRA等算法使得利用有限资源对大模型进行微调变得更加容易。例如表1显示了Llama 2 7B上三种微调模式全面微调、LORA和QLoRA的峰值GPU内存。在Llama 1中由于参数高效微调PEFT或量化内存也有类似的减少。除计算资源外灾难性遗忘详见本系列第一部分也是全参数微调的常见隐患。PEFT技术旨在通过对少量参数进行训练来解决这些缺陷。微调可能有益的原型研究人员将以下场景确定为可从微调中受益的常见用例语气、风格、形式定制使用案例可能会寻求反映特定角色或服务特定受众的LLM。通过使用定制数据集对LLM进行微调可以塑造聊天机器人的响应使其更符合受众的特定需求或预期的体验。另外研究者可能还希望它能以特定的方式组织输出例如JSON、YAML或Markdown格式的输出。提高精度并处理边缘情况微调可以用于纠正幻觉或错误这些错误很难通过prompt和上下文学习来纠正。它还可以增强模型执行新技能或任务的能力这些技能或任务很难在提示中表达。这个过程可以帮助纠正模型没有遵循复杂提示的错误并提高其产生所需输出的可靠性。以下是两个案例Phi-2对金融数据情绪分析准确率从34%提高到85%。仅用100个示例ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。通常来说对于较小的初始精度50%微调是一个巨大的障碍需要用几百个示例。处理代表性不足的领域尽管LLM接受了大量通用数据的训练但它们可能并不总是精通每一个特定领域的细微差别的行话、术语或具体情况。对于不同的领域如法律、医疗或金融微调已被证明有助于提高下游任务的准确性。以下是两个案例正如本文中指出的患者的病历包含高度敏感的数据这些数据通常不会在公共领域中找到。因此基于LLM的病历摘要系统需要进行微调。对于印地语等代表性较少的语言使用PEFT进行微调有助于完成这些语言的所有任务。降低成本微调可以将较大参数模型如Llama 2 70B/GPT-4中的技能提炼成小模型如Llama 2 7B中的技能从而在不影响质量的情况下降低成本和延迟。此外微调减少了对冗长或特定提示的需要从而节省了象征性成本并进一步降低了成本。新的任务/能力通常新的能力可以通过微调来实现。以下是三个案例1 微调LLM以便更好地利用特定检索器的上下文或完全忽略它2 微调LLM「法官」以评估其他LLM的指标如接地性、合规性或有用性3 微调LLM以增加上下文窗口与其他领域适配技术的比较微调与上文学习(少样本)上下文学习ICL是提高基于LLM的系统性能的有效方法。使用ICL时的常见注意事项包括随着需要展示的示例数量的增加推理的成本和延迟也会增加。随着例子越来越多LLM忽略一些例子是很常见的。这意味着你可能需要一个基于RAG的系统根据输入找到最相关的示例。LLM可以吐出提供给他们的知识作为例子。这一担忧在微调时也存在。微调和RAG普遍的共识是当LLM基本性能不尽如人意时可以先从RAG开始衡量其性能如果发现不足再转向微调。或者说与微调相比RAG可能更有优势。然而Meta认为这种范式过于简单化因为在多种情况下RAG不仅不是微调的替代方案而且更像是微调的补充方案。根据问题的特点应该尝试一种方法或者两种方法。根据本文的框架你可以提出以下问题以确定微调或 RAG或两者是否适用你的应用程序需要外部知识吗微调通常对注入新知识没什么帮助你的应用程序是否需要自定义语气/行为/词汇或风格对于这些类型的需求微调通常是正确的方法。你的应用程序对幻觉的容忍度如何在抑制虚假和想象力编造至关重要的应用中RAG系统提供内置机制最大限度地减少幻觉。有多少已标记的训练数据可用数据的静态/动态程度如何如果问题需要访问动态数据语料库微调可能不是正确的方法因为对LLM的知识可能很快就会过时。LLM应用程序需要有多透明/可解释RAG本身可以提供引用这些引用对于解释LLM输出非常有用。成本和复杂性团队是否拥有构建搜索系统的专业知识或之前的微调经验您的应用程序中的任务种类有多少在大多数情况下微调和RAG的混合解决方案将产生最好的结果问题就在于两者的成本、时间和额外的独立效益。最后微调中的探索确实需要一个强大的数据收集和数据改进策略Meta建议将其作为开始微调的前奏。04如何微调到了第三部分就步入真正关键的内容——如何去微调先要关注数据集。微调LLM可以说是艺术和科学的结合最佳做法仍在不断涌现。在这部分Meta将重点介绍微调的设计变量并就资源受限的情况下微调模型的最佳实践提供方向性指导。全面微调与参数高效微调在学术和实际应用中当应用于新领域时全面微调和PEFT都显示出下游性能的提升。选择其中一种方法可归结为可用计算量GPU小时数和GPU内存、目标下游任务以外的任务性能学习和遗忘权衡以及人工注释成本。全面微调更容易出现两个问题模型崩溃和灾难性遗忘。一些早期的实证研究表明与PEFT技术相比全面微调更容易出现上述问题但还需要做更多的研究。PEFT技术本质上是作为微调的自然正则化器。PEFT通常需要相对较少的计算资源来训练下游模型并且在数据集规模有限的资源受限场景下更易于使用。在某些情况下全面微调在特定任务上表现更好但代价往往是遗忘原始模型的一些能力。在资源受限的情况下PEFT可能会比全面微调提供更好的性能提升/成本比。如果在资源受限的情况下下游性能至关重要那么全面微调将是最有效的。无论在哪种情况下关键是要牢记以下几个关键原则来创建高质量的数据集。数据集管理在各种文献的微调实验中数据集对于获得微调的好处至关重要。除了「更好的质量和更多的示例」之外还有更多的细微差别你可以明智地投资数据集收集以在资源受限的微调实验中提高性能。数据质量/数量质量是最重要的一个大趋势是质量比数量更重要。也就是说拥有一小部分高质量的数据比拥有一大批低质量的数据更好。质量的关键原则是一致的注释没有错误、没有错误标签的数据、有噪音的输入/输出以及与总体相比具有代表性的分布。在微调时几千个精选的LIMA数据集示例比50K机器生成的Llama数据集具有更好的性能。OpenAI微调文档表明即使是50-100个示例的数据集也可能产生影响。更困难的语言任务需要更多数据相对困难的任务如文本生成和摘要更难微调比起更容易的任务如分类和实体提取需要更多数据。「更难」可以指多个输出中有更多的token需要更高级别的人类能力多个正确答案。有效的高质量数据收集由于数据收集成本较高建议使用以下策略来获得更高的样本效率和成本1 观察失效模式观察先前机器学习能力失败的例子并添加针对这些失效模式的样例。2 人机协作这是一种更经济的数据标注扩展方式。可以使用LLM自动生成基础回答人类标注者可以基于此更快地进行标注。数据多样性简单来说如果你用特定类型的回应过度训练模型它会倾向于给出那种回应即使不是最合适的答案。这里的经验法则是尽可能确保训练数据反映模型在现实世界中应该如何表现。重复无论是在微调还是预训练中这都被发现是导致模型性能下降的原因。通过去重实现多样性往往会提高性能指标。输入多样性通过改述来增加输入的多样性。数据集多样性当为更通用的下游任务微调时例如多语言适配使用多样化的数据集已被证明可以改善模型在遗忘原始能力和学习新能力之间的权衡。标准化输出移除输出中的空白和其他格式技巧被证明是有帮助的。如果你想要回答中有特定的语气比如「服务台聊天机器人是…」那么就为每个例子在数据集中添加这些内容。基于LLM的数据管道为了整理高质量、多样化的数据集数据管道经常使用大语言模型来降低标注成本。以下是实践中观察到的技术评估用高质量数据集训练一个模型然后用它来标注较大数据集以筛选出高质量的样例。生成用高质量示例来引导大模型并通过提示生成类似的高质量样例。合成数据集的最佳实践正在逐渐形成。人机协作使用大模型生成初始输出集然后由人类通过编辑或选择偏好来提高质量。调试数据集评估数据集中的不良输出如果模型在某些方面仍然表现不佳添加直接向模型展示如何正确处理这些方面的训练示例。如果你的模型存在语法、逻辑或风格问题检查数据是否存在相同的问题。例如如果模型现在说「我会为你安排这个会议」实际上它不应该这样做看看现有的例子是否教导模型说它可以做一些它实际上不能做的新事情。仔细检查正面/负面类别的平衡如果数据中60%的助手回应说「我无法回答这个问题」但在推理时只有5%的回应应该这样说你可能会得到过多的拒绝回应。全面性和一致性确保你的训练示例包含回应所需的所有信息。如果希望模型基于用户的个人特征来赞美用户而训练示例中包含了助手对前面对话中没有出现的特征的赞美模型可能会学会虚构信息。确保所有的训练示例都采用与推理时预期相同的格式查看训练示例中的一致性和协调性。总而言之微调是大模型开发中的一个关键方面需要在艺术和科学之间取得微妙的平衡。数据集的质量和筛选对微调的成功起着重要作用。经过微调的小型LLM在特定任务上往往表现优于更大的模型。一旦决定进行微调Llama微调指南提供了一个良好的起点。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询