2026/6/20 6:42:09
网站建设
项目流程
网站收费模板,网站后期维护内容,网站备案号查询平台,wordpress上传主题没有反应最近读到 Anthropic 最新两篇关于 AI Agent 的文章#xff0c;看了不少视频博主总结#xff0c;与我们建设 Agent 踩坑一样#xff0c;深有感触。不是因为知道了正确答案#xff0c;而是知道了为什么这样设计#xff0c;以及结合过往经验#xff0c;真正理解了这种设计。…最近读到 Anthropic 最新两篇关于 AI Agent 的文章看了不少视频博主总结与我们建设 Agent 踩坑一样深有感触。不是因为知道了正确答案而是知道了为什么这样设计以及结合过往经验真正理解了这种设计。其实AI Agent 设计与传统软件设计有着根本区别。网上很多文章都在展示一个“好”的 AI Agent 最终架构但很少有人提及其成长过程这样一个系统到底经历了哪些坑今天我就结合自身实践和大家聊聊 AI Agent 如何从一个简单的 API 调用成长为一个复杂的工业系统。一、反直觉的起点在不确定性上叠加不确定性当我写代码时常常会想这不就是在做系统设计吗一开始就把架构设计得更完备、更稳固难道不对吗说实话这种想法在传统软件设计中完全正确。比如做后端先把 Docker、部署模块都规划好前期慢一点后期不会出大问题。但 AI Agent 完全不同。我后来发现一个非常反直觉的点AI Agent 本身就是一个非确定性的系统。在它之上再搭建一层精致的架构相当于在不确定性上又叠加了一层不确定性。举一个我干过的“蠢事”一开始我只是想把一段话总结成一句话。结果我直接为它上了“规划与执行”Plan and Execute模式。原本一个 API 调用就能完成的事情被拆成了“规划”和“执行”两步。任务本身没有变复杂但链路变复杂了。这不是 AI 不行而是一开始就把路走复杂了。所以我们只讲一件事AI Agent 是如何从一个微小的问题开始一步一步被“逼”着长大的。在这条路上到底是什么节点、什么因素导致我们必须为它加上某种架构二、第一阶段能用 API 调用解决就绝不用 Agent以我们最近做的视频 AI Agent 为例。我们早就开始用 AI而且用得非常简单朴素。比如生成标题就是把稿子丢进去让它生成十个我再挑一个。再比如生成封面我让它生成一个视觉主体然后自己填上文字。这类任务说白了就是一次 API 调用就能搞定。如果为了这点事专门去搭建一个 Agent加上工具、记忆、编排……那真是“给蚊子装火箭助推器”看起来很酷但完全没必要。第一条原则既简单又残酷如果你的问题一个 API 调用能解决就不要用 Agent。不要为了用 Agent 而用 Agent。三、第二阶段多步骤不等于 Agent确定性任务用工作流后来我有了新的 AI 需求。剪视频时我发现处理语气词、啰嗦或没讲好的地方很琐碎自然就想能否让 AI 帮我把这些重复、冗余的部分剪掉这时问题升级了。你会发现这不是一个 API 调用能解决的而是一整条链路先把视频转成带时间轴的字幕再根据字幕判断哪些地方要剪然后生成剪辑方案最后控制音视频进行剪辑。这是一个多步骤问题。但请注意多步骤不等于 Agent。这里容易出现第二个错误很多人一看到多步骤第一反应就是“上 Agent”。其实不一定因为这类任务有一个重要特征中间完全不需要用户介入。自然的使用方式是上传视频点“一键剪辑”拿到最终结果。输入是确定的中间步骤是固定的输出也是一次性给到的。所以这种情况下Agent 反而是多余的。这种任务本质上是确定性的哪怕步骤很长、中间有很多 AI 调用它依然是一个流程。在这个阶段应该使用 工作流Workflow或链式结构比如 n8n、Dify 等框架就已经足够了。不需要对话不需要多轮交互也不需要用户中途插嘴。一个重要的判断指标如果用户不需要在中间反复参与那你大概率不需要“对话式 Agent”。四、第三阶段什么时候才真的需要 Agent用我自己踩过的一个坑来回答我曾做一个“一键生成特效”功能天真地以为点一下按钮它就能给我一套满意的动画效果。现实给了我一巴掌——它大概率不会一次就让我满意。有时风格不对有时节奏不对有时只想改一个小细节。这种任务不是对错题有时甚至是“审美题”。或者因为模型能力暂时达不到需要人去指导、反复调试。如果坚持只用按钮会发生什么你可能需要加很多按钮来控制“一键重做”、“一键改风格”、“一键改颜色”、“一键换模板”……每出现一种需求就加一个新按键产品最终会变成“飞机驾驶舱”布满各种按钮。这时我们才天然地需要一个通用的入口——对话式 Agent。真正需要狭义上的对话式 Agent通常只有两个信号1. 流程必须让人参与无论是被动因模型能力不足还是主动因需要人的偏好。2. 功能选项多到前端会指数级增长你不想为每个功能都添加单独的前端控件。五、第四阶段技术选型——别被“重型框架”迷惑确定使用 Agent 后我又马上犯了一个典型错误一开始就想选一个最强、最完整、能覆盖一切情况的 Agent 框架觉得简单技术“配不上”我的复杂问题。后来我才发现这是一个概念错误链长不等于必须用复杂的调度流程任务复杂不等于后端必须很重。我当时搞混了两种“长链”的概念工作流Workflow的长链点一下按钮从头跑到尾10步、20步连续执行。这时你才需要考虑任务分发、重试、队列、调度、并发和恢复因为它真的会在后端“横着跑到底”。对话式 Agent 的长链这是一种“场面”是可以被人“切开”的场面。它可以跑完一步停一下或跑几步停一下和用户交互确认。整体是一条长流程但每次真正执行的片段其实可以很短。这意味着很多时候你根本不需要一上来就搭建一个能连续跑20步、还要扛住各种异常的重型调度系统。我最终选择了一个看起来平平无奇的方案比如 LangChain 这类集成度高、上手快的 SDK。它可能不是最无敌的但有一个巨大优点能先把东西跑起来。只要它能完成最基础的对话和工具调用我们就能在真实任务迭代中进行验证和修正。所以不要被“后端架构”迷住双眼。先跑起来比一步到位做到“完美”更重要。复杂架构还可能有一个潜在问题它会诱导你进行过早设计。当你选了一个很厉害的后端框架比如 LangGraph它会天然地引导你在还没跑通任何东西时就开始设计节点、思考数据流转。这听起来很专业但问题是你连最简单的问题“能不能被模型解决”都不知道。这就像闭门造车车轮设计得再远却不知道路有多宽。这里其实有两重不确定性这个问题到底能不能被模型解决你的架构会不会干扰它我的建议很简单即使你选择了复杂架构也至少要先用它最简单的用法跑一遍把你这个问题的“基线baseline”跑出来知道任务的底线在哪儿之后再决定要不要加复杂的编排。六、第五阶段提示词设计——从简开始逐步添加在把基础 SDK 跑起来后下一关自然是如何设计系统提示词System Prompt。这时我马上踩了一个超级典型的坑我想把提示词写到“最厉害”。我找了很多成熟项目的提示词那种被传来传去、“效果炸裂”的还不够甚至还去翻某些知名项目泄露出来的系统提示词。心想别人写得这么好我照着抄总不会差吧结果立刻翻车第一效果没有更好第二Token 消耗直接爆炸。举个例子我只是想让 AI 帮我做一个视觉设计。如果我不给复杂提示词只说“你是一个视觉设计师给我一个方案”它能给出一个勉强可用的结果。但当我把那些专业的提示词一股脑丢进去它开始拆步骤、规划流程、一步步执行……结果就是更慢但效果不一定更好。我的经验是提示词的第一版不要写成复杂的“说明书”。可以先写得没什么限制看看它会怎么做然后不断地、一步一步地添加限制条件。 比如想让输出更格式化想让它在某方面多思考就给它提供一些示例few-shot让它根据示例进行输出。只要 Agent 能遵循你的指令一步步往上加东西能照着做那么系统提示词这一关其实就过了。七、第六阶段能力不足时不是改提示词而是加工具接下来会遇到一个非常现实的问题很多时候 AI 做不好不是因为系统提示词写得不够好而是任务本身需要的能力它根本就不具备。比如我让 AI 帮我做动效设计时其实期待它能参考网上流行的设计但问题是他根本拿不到这些数据。这时再怎么改提示词都没用——这不是写法问题是能力缺失。所以这一步正确的动作不是再去改系统提示词而是加工具。如果希望它能参考网上信息它就必须会搜索希望它写的代码可用它就必须能验证。这个时候我们才需要真正引入工具。当你把三四个工具加上去后会有一个明确的感觉它开始像一个 Agent 了。它开始自己想清楚该用哪个工具甚至把工具串起来用。这就是所谓的“涌现”——工具之间出现了 11 2 的效果。注意在这个阶段我们还没有做什么复杂的架构没有引入规划模块系统提示词也还是基础版本。说实话刚开始加工具的那段时间做 AI 的体验“爽爆了”。每加一个工具它就明显变聪明一点之前做不了的事现在能做了之前做得很勉强的事现在跑通了。你会忍不住继续加、继续加……这时会非常开心。八、第七阶段工具泛滥与上下文失控但很快你会进入一个非常诡异的阶段不是偶尔失败而是 Agent 性能持续性变差。成功率下降准确率忽高忽低有时甚至开始“听不懂人话”。你能明显感觉到它不是“不会做”而是“越做越不对”。这个地方其实不是模型不行了而是你的上下文开始失控了。工具一多每个工具背后都有一大段说明任务变复杂输入本身也更复杂再加上历史对话、代码、图片等各种信息……所有信息一股脑塞进模型导致信息太多太散模型的注意力被平均分散掉了。这是一个非常典型的上下文注意力稀释问题。九、第八阶段上下文工程与子智能体Sub-Agent的引入这时我们才真正需要本文开头提到的 Anthropic 第一篇文章所讲的 Context Engineering上下文工程 。它的本质就是在做某一类任务时让模型只看到它需要看到的东西。还是拿视频 Agent 举例。当我们想要设计某种视频效果时其实有两种不同任务设计任务关心用户意图、视觉风格、版式、元素、氛围。它需要大量开放的、可发散的信息并对这些信息进行分析总结。写代码任务把设计好的信息进行实现。它关心明确的指令、接口结构、输出格式及正确性。它需要尽量少、尽量精确的信息。如果把这两件事混在一起会发生什么任务简单时或许还能跑但任务一复杂设计信息会扰乱代码生成的准确性代码信息又会拖慢设计的判断——两个任务相互“污染”系统需要花大量时间去“理清楚”。当不同任务明显需要不一样的上下文时上下文的隔离才有意义。这时我们才会开始考虑是否需要有一个顶层的规划者它掌握所有全局信息然后去调度下面的执行者子智能体 。这些执行者只负责专项任务比如“设计子智能体”只负责设计“代码子智能体”只负责写代码并且在规划者的控制下它们只看到自己需要的那一小撮必要信息。如果一个子智能体看到的上下文和顶层规划者完全一样那它就完全没有意义。十、第九阶段记忆Memory系统的必要性当我们开始真正使用子智能体规划者-执行者结构时会立刻遇到一个绕不开的问题如何精确传递内容假设用户给了一段代码希望我们修改。顶层规划者看到了这段代码但它不负责写代码需要把这个任务交给下面的“代码执行者”。那么规划者如何把这段代码原封不动地交给执行者最直接的解决方案是让规划者把输入的东西“再输出一遍”给执行者。但这非常不合理因为发生了两件糟糕的事你在为“复制粘贴”付费输入一段代码输出一段代码只是做 copy-paste却消耗了大量昂贵的 Output Token。你无法保证一字不差模型不擅长机械复制。即使你明说“一行都不要改”它也可能把某个明显的 bug “改”了或者“纠正”一个你故意留的错误标点。如果你本来就是想去修这个 bug结果它在传递过程中就被“解决”了这在很多场景下是灾难性的。所以这一刻我们意识到有些信息我只想“存着”而不是让模型反复读写。 到这个时候我们必须引入 Memory记忆 这个概念了。**实现系统很简单它不是在传递内容而是在传递内容的指针。**比如顶层规划者看到代码后把它写到一个文件系统里记录下文件名。当它调度代码执行者时就说“你需要改这段代码代码存在[文件名]。” 执行者根据文件名取出内容修改即可。在这个过程中规划者不输出完整代码执行者不依赖规划者的输出从而让 Output Token 成本直接下降错误率显著降低。所以当你开始做上下文隔离当你需要开始传递不能改动的长内容时记忆系统就不再是“优化项”而是一个“必需品”。十一、第十阶段内存 vs. 外存——按需使用而非标配引入记忆概念后常会听到“内存短期记忆”和“外存长期记忆”的说法。这两个词没那么玄乎区别很简单· 内存在这轮对话结束后就消失的信息。 · 外存多轮对话都能拿到的信息。这不是两种神秘能力本质上是一个决定这个东西存在哪儿存多久 为什么有差别因为有些信息只对这一轮有用如果写到外存一直带着可能会变成噪音、污染下一轮的行为所以它应该留在内存里。而有些信息必须跨轮次保存比如代码的上下文、任务步骤的状态、用户的待办列表To-Do List等。所以不要一上来就看到“LangChain”、“内存外存”就都想用。顺序永远都是你走到这个阶段发现不用不行了才去用。十二、最终阶段调试与评估——记录全过程当你有了子智能体系统、上下文隔离、记忆系统之后整个系统会变得非常复杂也很难调试。问题变成了我到底怎么评价它哪里做得好哪里做得差答案只有一个把每一次运行的全过程全部存下来。 这里存的不是结果而是过程它到底用了哪些工具调用顺序是什么每步消耗了多少 Token有哪些上下文被用到有哪些信息本不该给某个执行者当你回头去读这样一整个流程时才会知道怎么样能把任务规划得更快、Token 用得更少、成功率更高。到这一步你才会突然发现哦原来我们之前读的 Anthropic 那两篇文章它们的系统设计才终于是对上了。我最初失败的原因不是那两篇文章不对而是我当时所处的阶段还不需要用到那些东西。这类比较成型的文章更像是一份“毕业设计的完整图纸”。当你已经做过中间所有实验、踩过坑再回头看时会发现它设计得很完美、很精巧。但如果你第一天学画图就直接照着这份毕业设计去施工大概率连第一根梁都立不起来。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】