2026/4/18 17:07:56
网站建设
项目流程
建立网站编码 优帮云,家具设计公司,怎么做像天猫类似的网站,网站建设费怎么做会计分录今天聊一聊怎么在RAG、agent场景中实现语义高亮#xff08;Semantic Highlight#xff09;。
在AI落地的过程中#xff0c;我们不管是用电商搜东西、用RAG查文档#xff0c;还是靠AI Agent做信息挖掘#xff0c;大家做检索最核心的需求其实就一个#xff1a;快速找到有用…今天聊一聊怎么在RAG、agent场景中实现语义高亮Semantic Highlight。在AI落地的过程中我们不管是用电商搜东西、用RAG查文档还是靠AI Agent做信息挖掘大家做检索最核心的需求其实就一个快速找到有用的信息。而高亮功能就是帮我们快速定位信息的关键。但传统基于关键词匹配的传统高亮无法根据语义信息做内容定位市面上已有的Semantic Highlight方案又各有各的问题。那么有什么办法解决以上问题接下来我们就从传统高亮的问题说起聊聊语义高亮方案的市场现状并带来我们自研的双语语义高亮模型看看它是怎么做到跨语言、高精度找到关键语义信息的。01传统Highlight有什么问题在讲语义高亮的话题之前我们需要先理解一个概念什么是传统的Highlight****我们可以从一个熟悉的场景说起打开淘宝搜索雨衣返回的商品标题里雨衣这个词会用高亮标出来以提示命中的查询词。这就是传统的搜索高亮Highlight。它背后的技术很简单数据库比如Elasticsearch等在返回结果时找到查询词出现的位置用特殊标签通常是em标签包起来前端解析后再渲染成高亮颜色。这种高亮的核心逻辑是关键词匹配。你搜什么词系统就标出什么词。就像小学生用荧光笔划重点哪里出现关键词就划哪里。但在实际落地过程中如果只做基于关键词匹配的高亮往往是不够的。**比如在电商搜索场景**用户搜iPhone性能怎么样系统只能高亮iPhone和性能这两个词。但如果商品详情页写的是“搭载A15仿生芯片跑分突破100万日常使用流畅无卡顿”——这明明是在回答性能问题但因为没有出现性能这个词一个字都不会高亮。用户得自己读完整段文字才能判断这是不是他想要的信息。到了RAG检索场景这个问题就变得更明显了。用户问“如何提高Python代码的执行效率”系统从向量数据库检索回来一篇技术文档。传统高亮只能标出Python、“代码”、“执行”、效率这几个词。但真正有用的内容可能是“使用numpy向量化操作替代循环”、“避免在循环中反复创建对象”。这些句子语义上完全在回答问题但一个查询词都不包含传统高亮完全标不出来。用户看着检索回来的长文档还得自己一句句读找哪里是答案。体验很差。而在AI Agent场景**问题又会****变得更加棘手。**Agent的搜索查询往往不是用户的原始问题而是经过推理分解后的复杂指令。比如用户问帮我分析一下最近的市场趋势Agent可能生成的查询是“检索2024年第四季度消费电子行业销售数据、同比增长率、主要竞争对手市场份额变化以及供应链成本波动情况”。这样的长查询包含多个维度的信息需求语义关系错综复杂。传统高亮只能机械地标出2024年、“销售数据”、增长率这些字面匹配的词。但真正有价值的分析结论——“iPhone 15系列带动了整体市场复苏”、“芯片供应紧张导致成本上升15%”——可能一个关键词都匹配不上。Agent需要从海量检索结果中快速定位真正有用的信息传统高亮完全无法胜任。总而言之传统Highlight的核心问题是只看字面不看语义。从传统的搜索到AI时代的RAGAI Agent的复杂场景这个问题正变得越来越严重。也是因此 Semantic Highlight语义高亮开始逐渐成为搜索到AI落地场景中的核心高亮方案。02市面上已有的Semantic Highlight方案有什么痛点Semantic Highlight语义高亮的本质是基于语义****理解做关键内容的高亮显示。用户问iPhone性能怎么样即使文本里没有性能这个词只要语义上在回答这个问题比如提到芯片、跑分、流畅度也会被高亮出来。在AI时代下这种需求实际上是相对容易实现的但长期以来无法落地主要是考虑到成本和效率的问题。因为高亮是高频操作用户每搜一次就要标注一次如果调用大模型延迟高、成本大根本不现实。也是因此我们需要一个几百MB大小、推理速度在毫秒级、能部署在搜索服务器上实时计算的专门的轻量级AI模型。但问题是市面上现有的Semantic Highlight模型各有各的问题**1**OpenSearch的模型窗口太小泛化不足OpenSearch今年发布了一个专门semantic highlight任务的模型opensearch-semantic-highlighter-v1。但它有两个致命问题。第一是上下文窗口太小。这个模型基于BERT架构最大只能处理512个token。换算成中文大约300-400字英文大约400-500词。实际场景中一篇商品详情页、一段技术文档动辄上千字。模型只能看到前面一小段后面的内容直接截断。这就像让一个人只读文章的前两段就判断全文重点根本不现实。第二是out-of-domain域外泛化能力差。什么是out-of-domain简单说就是模型在训练时没见过的数据类型。比如模型在新闻数据上训练拿去标注电商评论效果就会明显下降。我们在实验中发现OpenSearch模型在in-domain数据上F1能到0.72但在out-of-domain数据上直接掉到0.46。这种不稳定性在实际应用中很危险。更关键的是它不支持中文。**2**Provence/XProvence差强人意协议限制Naver发布的Provence系列是另一个选择他是专门为Context Pruning上下文剪枝训练的模型模型原理可以参考我们的上一篇文章。虽然它是处理Context Pruning任务的模型但是Context Pruning和Semantic Highlight的技术路线完全相同都是基于语义匹配找出最相关的部分排除掉不相关的部分。所以Provence系列也可以用于Semantic Highlight任务。Provence本身是英文模型效果确实不错。XProvence是它的多语言版本支持中文、日文、韩文等十几种语言。如果为了满足我们的中英双语需求貌似可以考虑XProvence。但Provence/XProvence也有几个问题第一XProvence在英文上不如Provence****多语言模型很难在所有语言上都做到极致。从评测数据来看XProvence在英文数据集上的表现比Provence弱一些。对我们来说英文场景同样重要。第二中文****水平表现差强人意。XProvence支持十几种语言中文只是其中之一。多语言训练时每个语言分到的数据量都不会特别大。这就像一锅粥加的料越多每种料的味道就越淡。第三Pruning任务和Highlight任务有微妙的差别。Provence系列是为Context Pruning训练的。剪枝的策略是宁可多留不要漏掉因为漏了关键信息LLM就答不上来了。但Semantic Highlight更强调精准我们要高亮的是最核心的句子不是把半篇文章都标黄。第四协议问题。Provence和XProvence使用的是CC BY-NC 4.0协议这个协议不允许商业使用。**3**Open Provence缺少中文支持我们发现了一个宝藏项目Open Provence****这个项目把Provence的训练代码完整复现了出来。不仅有训练脚本还有数据处理、评测工具甚至还提供了不同规模的预训练模型。更重要的是它是完全开源的MIT协议可以放心用在商业项目中。但问题是Open Provence只支持英文和日文没有中文。03官宣我们自研了Semantic Highlight****双语模型综合来看市面上没有一个模型能同时满足这些要求中英文都要强上下文窗口足够大out-of-domain泛化能力好在Semantic Highlight场景下表现好协议友好MIT或Apache 2.0既然市面上没有合适的模型那就自己训练一个。我们的核心思路是用LLM标注高质量数据集基于开源框架快速训练。关键在于数据构造。我们让LLMQwen3 8B在标注时输出完整的思考过程标注流程大致如下这样做有三个好处标注质量更高模型先思考再回答相当于自我检查可观测可调试能看到推理过程发现问题及时调整数据可复用有了思考过程将来重新标注时有参考最终我们构造了1M百万级双语训练样本中英文各占一半。基于BGE-M3 Reranker v20.6B参数8192 tokens窗口作为基础模型使用Open Provence的训练框架在8张A100上训练3个epoch约5小时完成。关于训练的更多技术细节为什么用思考模式、如何选择基础模型、数据集构造流程等我们会在下一篇文章中详细展开。04实测展示我们在多个数据集上对比了不同模型的表现包括英文多跨度问答数据集multispanqa维基百科out-of-domain数据集wikitext2中文多跨度问答数据集multispanqa_zh维基百科out-of-domain数据集中文版wikitext2_zh评测模型包括Open Provence系列、Naver的Provence/XProvence系列、OpenSearch的semantic-highlighter以及我们训练的双语模型。英文数据集中文数据集可以看到在双语评测中我们的模型平均F1均达到了SOTA水平击败了之前所有的模型和方案而且在中文测试评估上大幅超过了同样能够处理中文的XProvence系列模型。更重要的是我们的模型在中英文上达到了平衡这是其他模型难以做到的Open Provence只支持英文XProvence在英文上不如ProvenceOpenSearch不支持中文且泛化能力差除了评测跑分之外我们来看一个更有意思的例子来直观感受一下我们的模型在实际应用中的表现。问题“谁写了《杀死一只神圣的鹿》”文本共5个句子1. 《杀死一只神圣的鹿》是一部2017年的心理恐怖片由约尔戈斯·兰西莫斯执导 剧本由兰西莫斯和埃夫西米斯·菲利波编写。 2. 影片主演包括科林·法瑞尔、妮可·基德曼、巴里·基奥汉、拉菲·卡西迪、 桑尼·苏尔吉奇、艾丽西亚·西尔维斯通和比尔·坎普。 3. 故事基于古希腊剧作家欧里庇得斯的剧本《在奥利斯的伊菲革尼亚》。 4. 影片讲述了一位心脏外科医生法瑞尔秘密与一个与他过去有联系的 少年基奥汉交朋友的故事。 5. 他把这个男孩介绍给他的家人后者开始神秘生病。正确答案第1句明确说明剧本由兰西莫斯和埃夫西米斯·菲利波编写这个例子有个陷阱第3句提到了欧里庇得斯写了原作剧本。但问题问的是谁写了电影《杀死一只神圣的鹿》答案应该是电影编剧而不是几千年前的希腊剧作家。各模型表现关键句子得分对比|| |这个结果非常有意思XProvence的问题被欧里庇得斯和剧本这两个词强烈吸引给第3句打了接近满分0.947和0.802对真正的答案第1句完全无视给出极低的分数0.133和0.081即使把阈值从0.5降到0.2依然找不到正确答案我们模型的表现给正确答案第1句打了0.915的高分明确识别出电影编剧也给第3句打了一定的分数0.719因为它确实提到了剧本的相关信息但区分度非常清晰0.915 vs 0.719差距接近0.2这个例子展示了我们模型的核心优势能够跳出简单的关键词匹配桎梏理解问题的真实意图。谁写了《杀死一只神圣的鹿》这个问题在电影百科的语境下明显是在问电影的编剧。虽然文本中同时出现了电影编剧和原作剧本两个信息但我们的模型能准确理解用户真正想要的是哪一个。更详细的评测报告和案例分析我们会在后续发布。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】