2026/4/18 11:00:28
网站建设
项目流程
易网拓营销型网站,慈溪做网站公司,江苏省建设招标网站,邯郸之窗官网一、上下文是关键
大型语言模型#xff08;LLM#xff09;是一种生成式人工智能技术#xff0c;在过去两年中获得了极大的关注。然而#xff0c;当我们将LLM应用于实际场景时#xff0c;仍然面临知识局限性和“幻觉”问题。检索增强生成#xff08;RAG#xff09;通过为…一、上下文是关键大型语言模型LLM是一种生成式人工智能技术在过去两年中获得了极大的关注。然而当我们将LLM应用于实际场景时仍然面临知识局限性和“幻觉”问题。检索增强生成RAG通过为LLM提供额外的记忆和上下文来解决这些问题。在2024年RAG已成为应用生成式AI领域最受欢迎的技术之一。事实上可以假设任何基于LLM的应用程序都以某种方式使用了RAG。RAG通过访问非参数化记忆增强了LLM的参数化记忆图片来源:https://medium.com/the-rag-explorer/7-retrieval-metrics-for-better-rag-systems-f04c098abbe7二、RAG评估通过指标评估超越简单RAGNaive RAG为了让RAG兑现其将LLM响应扎根于数据的承诺我们需要超越简单的索引、检索、增强和生成的实现。然而要改进某件事首先需要衡量其性能。RAG评估有助于为您的RAG系统性能设定基准以便后续进行优化。构建一个概念验证PoCRAG管道并不复杂。LangChain 和 LlamaIndex 等工具已经使其变得相当简单。通过简短的培训和对有限示例集的验证即可完成。然而为了提高其鲁棒性必须在一个能够准确反映生产用例的数据集上进行全面测试。RAG管道可能会产生自身的“幻觉”。从高层次来看RAG系统有三个主要的失败点检索器未能检索到完整的上下文或检索到了无关的上下文即使提供了上下文LLM也未考虑它LLM没有回答查询而是从上下文中选择了无关的信息。检索质量是RAG管道的第一个可能的失败环节在这篇文章中我们将重点介绍一些评估指标这些指标专注于第一个失败点——“检索器未能检索到完整的上下文或检索到了无关的上下文”。换句话说这些指标用于评估检索器的质量。检索指标评估RAG检索增强生成系统的评价指标可以分为三大类用于信息检索任务的检索指标本文重点讨论的内容生成特定指标如BLEU、ROUGE、METEOR等这些指标关注生成内容的流畅性并衡量相关性和语义相似性。RAG特定指标随着RAG应用的普及而逐渐发展改变。RAG中的检索组件可以独立评估以判断检索器是否能够很好地满足用户查询需求。接下来我们将介绍七种流行的指标它们不仅适用于RAG系统还广泛应用于搜索引擎、推荐系统等信息检索任务中。知识库的概念在RAG中知识库是一个非常重要的概念。它是一种非参数化的存储器保存了RAG系统所处理的所有文档。三、七大检索指标详解1. 准确率Accuracy准确率通常定义为正确预测的比例包括真正例和真负例与总案例数之比。如果你熟悉监督学习中的分类问题可能已经对这个指标有所了解。在检索和RAG的背景下它的计算方式如下公式准确率 检索到的相关文档数量 未检索到的不相关文档数量 / 知识库中文档总数虽然准确率是一个简单直观的指标但它并不是检索任务的主要指标。在大型知识库中大多数文档通常与任何给定查询无关这可能导致误导性的高准确率分数。此外它没有考虑检索结果的排序。2. 精确率Precision精确率关注的是检索结果的质量衡量检索到的文档中有多少是与用户查询相关的。它回答的问题是“在所有检索到的文档中有多少是真正相关的”公式精确率 检索到的相关文档数量 / 总检索文档数量较高的精确率意味着检索器表现良好主要返回相关文档。注意精确率也是分类任务中常用的指标在分类任务中它被定义为模型预测为正类的样本中实际为正类的比例即精确率 真正例 / 真正例 假正例Precisionk这是精确率的一个变体衡量前“k”个检索结果中相关文档的比例。它特别重要因为它专注于顶部结果而不是所有检索到的文档。对于RAG来说这一点尤为重要因为只有顶部结果最有可能被用于增强生成。公式Precisionk 前“k”个结果中的相关文档数量 / k例如如果我们的RAG系统考虑前5个文档进行增强那么Precision5就变得至关重要。一个Precision5值为0.8或4/5表示在前5个结果中有4个是相关的。优点Precisionk还可以用来比较不同系统尤其是在不同系统检索结果总数不同的情况下。然而其局限性在于“k”的选择可能是任意的且该指标不会考虑超出“k”范围的结果。3. 召回率Recall召回率关注的是检索器的覆盖范围衡量从知识库中所有相关文档中检索出的相关文档比例。它回答的问题是“在所有相关文档中有多少被实际检索到了”公式召回率 检索到的相关文档数量 / 知识库中的相关文档总数需要注意的是与精确率不同召回率的计算需要事先知道相关文档的总数。在拥有大量文档的知识库中这一点可能会变得具有挑战性。注意与精确率一样召回率也不考虑检索结果的排序。它可能会产生误导因为检索知识库中的所有文档会导致完美的召回率值。Recallk类似于PrecisionkRecallk衡量的是前“k”个结果中相关文档的比例相对于知识库中所有相关文档的数量。公式Recallk 前“k”个结果中的相关文档数量 / 知识库中的相关文档总数召回率和准确率的不同场景4. F1分数F1-scoreF1分数是精确率和召回率的调和平均值提供了一个平衡质量和覆盖率的单一指标。公式F1-score 2 x (Precision x Recall) / (Precision Recall)f1 分数平衡了准确率和召回率。准确率和召回率都为中等时其 f1 分数会高于一个值非常高而另一个值非常低的情况。该公式的特点是当精确率或召回率较低时F1分数会被惩罚只有当两者都较高时才能获得较高的F1分数。这意味着单靠某一项指标无法使F1分数偏高。优点F1分数提供了一个单一、平衡的度量标准可以轻松比较不同系统。然而它不考虑排序并且对精确率和召回率赋予相同的权重这可能并不总是理想的。注意“相关”文档我们讨论的大多数指标都涉及“相关”文档的概念。例如精确率是通过检索到的相关文档数量除以总检索文档数量来计算的。问题是——如何确定某个文档是相关的简单的答案是采用人工评估方法。领域专家查看文档并判断其相关性。人工评估会带来主观性因此通常由专家组而非个人完成。但人工评估在规模和成本上存在限制。任何能够可靠建立相关性的数据都会变得极其有用。Ground Truth是已知真实或正确的信息。在RAG和生成式AI领域中Ground Truth是一组预先准备好的Prompt-Context-Response或Question-Context-Response示例类似于监督学习中的标注数据。为你的知识库创建的Ground Truth数据可用于评估RAG系统。前四个指标不考虑文档的排名。它们从整体检索角度评估系统的有效性。接下来的三个指标也会考虑结果的排名。5. 平均倒数排名MRR, Mean Reciprocal RankMRR特别适用于评估相关文档的排名。它衡量的是第一个相关文档在结果列表中的倒数排名。MRR是针对一组查询计算的。公式MRR 1/N x [Summation i1 to N (1/rank(i))]  MRR 考虑排名但不考虑所有文档 其中N是查询总数rank(i)是第i个查询中第一个相关文档的排名。 **优点** MRR特别适合关注系统找到相关文档的速度并考虑结果的排序。然而由于它只关注第一个相关结果因此在多个相关结果重要的场景下可能不够理想。 --- ### 6. 平均精度均值MAP, Mean Average Precision MAP是一种结合了精确率和召回率的指标它在不同“k”截断水平下计算。首先计算每个查询的平均精度Average Precision然后对所有查询取平均值。 **公式** plaintext Average Precision (单个查询) 1/R(i) × [求和 k1 到 n (Precisionk × 第k个文档的相关性)]  MAP 考虑所有检索到的文档并给出更高的分数以获得更好的排名 其中是查询i的相关文档数量是截断“k”时的精确率relk是一个二进制标志指示第k个文档的相关性。 **MAP公式** plaintext MAP 1/N x [Summation i1 to N (Average Precision (i)]优点MAP提供了一个跨召回水平的单一质量度量非常适合关注结果排序的场景但计算较为复杂。7. 归一化折损累计增益nDCG, Normalized Discounted Cumulative GainnDCG通过考虑相关文档在结果列表中的位置来评估排序质量并为出现在前面的相关文档分配更高的分数。它特别适用于文档具有不同程度相关性的场景。公式DCG 求和 i1 到 n ((2^rel(i) - 1) / log(i1))其中是位置i处文档的相关性得分。IDCG是理想情况下的DCG即完美排序的DCG。nDCG是实际DCG与理想DCG的比值。公式优点**nDCG考虑了文档的不同相关程度并对高排名的项目赋予更高的权重。**然而它计算复杂需要为文档分配相关性得分这可能带来主观性同时折扣因子的选择会显著影响结果。总结检索系统不仅用于RAG还广泛应用于网络和企业搜索引擎、电商产品搜索、个性化推荐、社交媒体广告检索、档案系统、数据库、虚拟助手等领域。这些检索指标有助于评估和改进性能从而更好地满足用户需求。你认为还有哪些指标可以补充到这个列表中呢欢迎留言告诉大家学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】