通州区网站建设公司禅知 wordpress
2026/4/18 16:34:40 网站建设 项目流程
通州区网站建设公司,禅知 wordpress,网站设计及开发,网站开发 简单目前公司的智能问答平台利用RAG技术构建#xff0c;现给大家分享下通RAG技术构建智能问平台的具体流程和原理。 一、什么是RAG RAG是检索增强生成技术#xff08;Retrieval-Augmented Generation#xff09;#xff0c;目前是构建智能问答的重要技术。RAG相比传统的检索可…目前公司的智能问答平台利用RAG技术构建现给大家分享下通RAG技术构建智能问平台的具体流程和原理。一、什么是RAGRAG是检索增强生成技术Retrieval-Augmented Generation目前是构建智能问答的重要技术。RAG相比传统的检索可以可以减少幻觉支持知识动态更新等优点是现在企业和个人打造知识库的重要架构和技术。核心包括以下2点1、数据准备阶段包括数据收集及清洗——文本解析及分割——文本转化成向量——数据入库2、应用阶段包括用户提问——问题解析——数据检索召回和重排——注入Prompt——LLM生成答案二、RAG构建智能问答系统详解以下是RAG技术构建智能问答平台业务流程图一数据准备阶段1、数据收集及清洗企业需要建立自己的知识库根据企业业务进行分类建议设置版主进行运营毕竟没有更新的知识是没用的。同时也可以去收集各个业务系统的数据包括钉钉的发文、项目管理系统等知识。下图是根据业务构建知识库架构和流程知识包括非结构化各类文档如Word、PDF、Excel等和结构化的知识Excel、数据库知识等。收集了知识后对部分数据进行清洗去除冗余和噪音。包括去除重复文档、去除过时的旧文档等。特别同一份知识经常存在新旧版本要记得把旧版本删除。2、文本解析及分割1文件解析文件解析是将原始文件如 PDF、Word、Markdown、表格 等转换为转换为纯文本或结构化文本。文件解析技术包括基于空间布局的技术MinerU、多模态技术。2文件分割大模型的输入长度有限且长文本不利于精准检索因此需要将原始文本分割为较小的 “块”Chunks。分割策略包括按固定大小分割和按语义分割。最初我们是按固定大小分割发现效果不太好后续按语义单元进行分割效果好很多。在分割时由于会丢失上一级标题影响检索效果建议把上一级标题自动加上。3、把文本转化成向量RAG 的 “检索” 环节依赖向量数据库需将文本块转换为向量Embedding并存储以便快速匹配相似内容。选择开源模型把文本转成向量目前有conan-embedding-v1、bge-m3 等模型。经过对比和测试发现bge-m3模型比较好。4、数据入库转成向量后存储到向量数据库。根据不同内容建了DOC库和QA库。所有文档放到DOC库如果有问答对放到QA库。QA库是简短的一问一答知识列表优先级会比DOC库优先。二应用阶段1、用户提问在所有需要问答的页面我们都可以设计智能问答入口引导用户提问。目前交互基本都是千篇一律。如下是豆包交互。2、问题解析由于存在上下文需要对用户多轮会话进行改写得出用户真正要问的问题。如果智能问答平台不只是问答要能实现问生产系统的内容那还要去对问题进行意图识别语法分析、实体识别等步骤。3、数据检索包括知识检索、知识召回、知识重排与生成、注入Prompt1知识检索将用户问题通过 Embedding 模型转为向量在向量数据库中搜索与该向量相似度最高的 Top N 个 Chunk如 Top 5。为了解决向量模型对专业术语不敏感的问题还会引入关键词检索。即向量检索关键词检索2知识召回从检索到的文档中提取出相关的句子或段落作为候选答案。3知识重排与生成使用算法把所有检索的结果进行排序。这里涉及到答案评分使用模型对答案进行评分评分高的排前面获得重排的答案。4注入Prompt我们提前准备了一段通用的Prompt基于提供的知识回答问题不编造信息让他按我们的要求输出答案例如我们构建如下Prompt5LLM生成答案通过模型和注入Prompt让模型对候知识进行总结。国内可以选择DeepSeek V3、Deepseek R1、Qwen等模型进行总结。建议试用DeepSeek V3。以上就用RAG 技术构建智能问答平台的基本流程为了提升用户体验我们也可以引入定量指标和定性反馈评估系统性能包括检索精度、生成准确性、用户满意度、响应速度等指标并持续优化。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询