2026/4/18 10:41:36
网站建设
项目流程
自建网站阿里云备案通过后怎么做,自己怎么做直播网站吗,免费购物网站制作,大兴安岭网站建设在高质量 AI Agent 系统里#xff0c;记忆模块的设计远比看起来复杂#xff0c;它要解决三个关键问题#xff1a;
怎么存历史对话#xff1f;什么时候检索#xff1f;该检索哪些内容#xff1f;
这些问题直接决定了 Agent 的响应速度、资源占用和能力天花板。
而我们常…在高质量 AI Agent 系统里记忆模块的设计远比看起来复杂它要解决三个关键问题怎么存历史对话什么时候检索该检索哪些内容这些问题直接决定了 Agent 的响应速度、资源占用和能力天花板。而我们常用的 ChatGPT、Claude 这类大模型之所以能记住用户的长期偏好越用越顺手本质上是因为它们也算一种极简版 AI Agent。但在记忆模块的设计上两者走了完全不同的路。最近一位外网大神Manthan Gupta对 ChatGPT 以及Claude 的记忆系统做了逆向结论如下GPT记忆主要靠预计算注入 分层缓存主打轻量化连续性Claude采用RAG式按需检索 动态更新来平衡记忆的深度与效率。原文如下https://manthanguptaa.in/posts/chatgpt_memory/https://manthanguptaa.in/posts/claude_memory/那么两者的记忆模块究竟是怎么运作的对我们的日常agent搭建有什么启发本文将深入解答。01ChatGPT四层静态注入架构搭建记忆模块ChatGPT 未采用传统的向量数据库RAG或全量对话存储而是通过四个分层组件将记忆提前注入每次对话的上下文在保证个性化的同时控制计算成本。其整体上下文结构为[0]系统指令 → [1]开发者指令 → [2]会话元数据 → [3]用户长期记忆 → [4]近期对话摘要 → [5]当前会话消息 → [6]用户最新消息其中后四层为记忆核心。其中**会话元数据Session Metadata**指的是短期、非持久化记忆仅在会话启动时注入一次会话结束后销毁主要用于让模型适配当前场景如移动端简化回复格式不影响长期记忆。其内容聚焦用户当前使用环境包括设备信息账号属性订阅等级如 ChatGPT Go、账号年龄、使用频率行为数据近 1/7/30 天活跃天数、平均对话长度、模型调用分布如 49% 用 GPT-5。用户长期记忆User Memory则是长期、可编辑的核心记忆用于记录用户稳定属性如姓名、职业目标、过往经历、项目成果、学习偏好每次对话都会强制注入。其更新方式包括显式更新用户通过 “记住这个”“从记忆中删除” 等指令直接管理以及隐式更新模型检测到符合 OpenAI 标准的事实如姓名、职位且用户默认同意时自动添加。近期对话摘要Recent Conversations Summary则是一个轻量化跨会话层用于替代传统 RAG 的全量检索每次对话均注入。这一层仅总结用户消息不包含助手回复数量有限约 15 条仅保留近期兴趣不存储细节整个过程无需嵌入计算或相似度搜索降低延迟和 token 消耗。**当前会话消息Current Session Messages**则是一个滑动窗口上下文层用于维持当前会话连贯性的短期缓存会存储全量对话内容。当超出 token 上限时自动 “滚除” 最早的消息但长期记忆和近期对话摘要不受影响02Claude 工具化按需检索架构做记忆管理Claude 摒弃了 ChatGPT全量预注入的思路采用长期记忆 按需工具检索的动态架构仅在需要时调取历史上下文平衡细节深度与效率。其上下文结构为[0]系统指令静态→ [1]用户记忆 → [2]对话历史 → [3]当前消息。两者的核心差异体现在 对话历史的检索方式和用户记忆”的更新逻辑。**首先是用户记忆User Memories**其定位是智能更新的长期层与 ChatGPT 长期记忆功能类似但支持更灵活的动态更新格式为 XML 标签包裹。其更新机制包括隐式更新后台定期基于对话内容自动更新-非实时删除对话会逐步移除相关记忆显式更新通过memory_user_edits工具用户用 “记住这个”“删除这个” 指令管理。对比 ChatGPTClaude 在这一环增加了后台自动优化无需用户主动干预记忆迭代。对话历史Conversation History方面Claude 未采用固定摘要注入而是通过三个互补组件动态调取历史仅在模型判断需要时触发避免无效 token 消耗。这套组件中比较值得研究的是conversation_search能在模糊表述、多语言查询等场景依然能实现命中背后应该使用了语义层面的匹配能力常见实现是 embedding 检索或“翻译/规范化 关键词/混合检索”的组合。整体来看Claude 这套按需检索系统的特点则在于非自动触发工具调用由 Claude 自主判断如用户提 “上次聊的项目” 时触发conversation_search。细节保留检索结果包含助手回复片段ChatGPT 摘要仅用户消息适合需要上下文深度的场景效率优势无需每次注入所有历史减少无关 token 消耗。缺点则在于一旦引入按需检索系统复杂度上升索引构建、查询、排序、可能的重排端到端延迟不如预计算注入可控同时模型还必须学会判断何时该检索判断失误就会丢上下文。03Claude 式按需检索的技术门槛一旦选择按需检索路线向量数据库的选型就变得至关重要。因为对话检索场景对数据库的要求极为苛刻须同时满足四个约束。约束一延迟容忍度极低对话系统的 P99 延迟必须控制在 20ms 以内否则用户会感觉卡顿。这意味着向量检索、元数据过滤、结果排序的全流程都要高度优化。任何一个环节出现性能瓶颈整个对话体验都会劣化。约束二混合检索是刚需用户的查询包含多维度约束“最近一周关于 RAG 的讨论”同时涉及时间过滤和语义检索。如果数据库只支持向量检索先返回 1000 个语义相关的结果再在应用层做时间过滤可能只剩 3 个中间 997 次计算全部浪费。必须在数据库层面原生支持向量标量的组合查询。约束三资源占用与扩展性的矛盾对话历史有明显的冷热特征最近的对话被频繁检索几个月前的对话很少访问。如果所有向量数据都必须加载到内存千万级对话会消耗数百 GB 内存资源开销不可接受。必须支持存储计算分离热数据在内存、冷数据在对象存储按需加载。约束四查询模式的多样性有时是纯语义检索之前讨论的性能优化方案有时是纯时间检索上周的所有对话有时是复杂组合三个月内关于 Python 且提到 FastAPI 的讨论。数据库的查询优化器必须针对不同模式自动选择最优执行策略避免统一的暴力搜索。这四个技术挑战构成了对话检索的完整约束。任何想要实现 Claude 式按需检索的系统都必须系统性地解决这些问题。04Milvus2.6为对话检索场景而生的架构演进Milvus 2.6 版本的设计选择与按需检索的核心需求形成了适配。以下是几个关键能力的匹配分析。稠密稀疏向量的混合检索Milvus 2.6 原生支持在同一个 collection 中存储稠密向量和稀疏向量并在查询时自动融合结果。对话检索场景可以这样组合用稠密向量如 BGE-M3 生成的 768 维 embedding捕捉语义相似度用稀疏向量BM25 算法生成捕捉关键词匹配。查询“上周关于 RAG 的讨论”时系统会同时执行语义检索和关键词检索然后通过 Rerank 算法融合结果召回率相比单一方法有显著提升。存储计算分离查询优化器Milvus 2.6 的架构支持两种分层存储模式热数据放内存、冷数据放对象存储以及索引放内存、原始向量数据放对象存储。在这种模式下100 万条对话只需 2GB 内存8GB 对象存储就能搞定。在合理配置参数情况下P99 延迟可控制在 20ms 以内。JSON Shredding 与标量过滤优化Milvus 2.6 默认启用 JSON Shredding将 JSON 字段的嵌套结构打平为列式存储标量过滤性能提升 3-5 倍基于官方 benchmark实际提升幅度取决于查询模式。对话检索常需要过滤用户 ID、会话 ID、时间范围等元数据这些字段通常存储在 JSON 中。启用 JSON Shredding 后查询“用户 A 最近一周的对话”时不再需要解析完整 JSON而是直接在列式索引上执行过滤。开源特性带来的技术掌控力作为开源方案Milvus 让你可以根据负载调整索引参数、通过数据分层优化资源占用、定制分布式部署策略。这种灵活性在商业黑盒方案中无法实现。更重要的是中小团队也能构建百万到千万级检索系统不再依赖巨额基础设施投入。05为什么 ChatGPT 和 Claude 选择了不同的路理解了技术约束后我们可以回答最初的问题为什么两家公司选择了不同的架构ChatGPT 选择主动遗忘超出固定记忆容量用确定的边界换系统简单性。Claude 选择延迟遗忘理论无限累积把召回责任交给检索系统。Claude 的架构如果在 2020 年是过度设计向量数据库延迟几百 ms不支持混合查询资源占用指数增长。肯定会被放弃使用。但到 2025 年这套架构已成为主流选择也为agent的设计提供了一定参考。在这背后Milvus 2.6 等方案已解决存储计算分离、查询优化、稠密稀疏混合检索、JSON Shredding 等核心问题。技术基础设施的成熟度决定了架构选择的可行空间。06写在最后具体落地场景中如何做选择我们没必要陷入预计算和按需检索的二元对立。可以采用更合理的是混合架构最近对话用滑动窗口直接注入核心偏好用固定记忆历史对话用向量检索按需召回。架构则可以随产品演进动态调整从预计算为主逐步过渡到检索为主。即使现在选择预计算方案也要预留迁移路径。在数据结构上记录 ID、时间戳、分类标签、原始来源。未来迁移到向量检索时只需为记忆生成 embedding元数据一起写入数据库检索逻辑无缝切换。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】