2026/6/20 13:48:50
网站建设
项目流程
微网站开发,新泰网站建设,石家庄关键词搜索引擎优化,如何做下载网站赚钱一、Agent元年回顾
2025年作为Agent元年#xff0c;元旦期间看了不少Agent架构的复盘#xff0c;很认可知乎博主周星星的观点#xff0c;Agent架构已逐步收敛至以 Claude Agent SDK 和 Deep Agent 为代表的架构。
首先#xff0c;Agent架构在持续激烈地演进着#xff0c…一、Agent元年回顾2025年作为Agent元年元旦期间看了不少Agent架构的复盘很认可知乎博主周星星的观点Agent架构已逐步收敛至以 Claude Agent SDK 和 Deep Agent 为代表的架构。首先Agent架构在持续激烈地演进着10月份Manus的分享中透露他们的Agent架构已经经历了五次重构离他们3月份发布早期预览版开始才过去7个月这应该是最好的证据了。但是10月份前后出现了收敛的迹象LangGraph 1.0正式发布并同时推出Deep AgentClaude正式将Claude Code SDK更名为Claude Agent SDK并发布博客《Building agents with the Claude Agent SDK》。那到底收敛到了一个什么样的架构呢它是个Agent Loop配合相应的工具从而来处理复杂、多步的任务它通常采用Main Agent Sub Agent的主从架构从而隔离Agent的上下文同时避免Agent通信带来的困难。它通常包含一个planning阶段来对复杂、多步任务进行规划和拆解它可以利用文件系统进行上下文管理包括offload、reduce、retrieve、isolate、cache等操作这次我们先深入研究一下Manus的架构。二、Manus历次产品更新与架构重构10月份Manus的分享中透露他们的Agent架构已经经历了五次重构加上11月份的Manus 1.6至少有六次自2025年3月首次发布以来才过了7个月。其核心升级集中在上下文工程、执行效率、规划能力以及复杂任务交付四个维度。上下文工程的持续优化Manus在上下文工程方面不断探索在上下文卸载方面为了应对“工具爆炸”带来的上下文混淆将工具列表从单层扁平架构升级为三层架构分别为原子函数层、沙盒工具层、代码/包层。除此之外他们在上下文压缩、上下文隔离也诞生了非常多的最佳实践。执行效率升级通过持续的架构重构任务完成速度从早期的约 15 分钟缩短至 4 分钟以内规划机制进化早期版本通过不断读写todo.md文件来复述目标但这会消耗大量 Token 和交互轮次。后来他们升级后采用专门的规划 Agent以实现更专业的任务拆解与进度管理显著节省了 Token 成本。交付能力逐步扩展Manus 从简单的任务执行进化为复杂产物的全流程交付包括全栈 Web 应用开发、Wide Research以下是从时间维度进行梳理的Manus的产品和能力升级时间线时间节点版本重点更新核心突破2025.031.0• 全球首发通用 AI Agent • 推出 Browser Operator • 支持自主多步任务拆解与执行自主执行 突破了传统 AI “只说不做”的限制能直接操控网页完成任务。2025.101.5• 全栈 Web 应用开发功能上线 • 1.5架构运行速度较4月份提升4倍归功于单个任务扩展的上下文窗口生产力跃迁 不再只是爬取数据而是能独立交付可运行的生产级软件。2025.111.6• 推出迄今最强引擎 Manus 1.6 Max任务成功率大幅提升 • Max架构通过更先进的规划和问题解决架构带来了可衡量的性能提升 • 开放移动端应用开发能力 • Design View互动式画布支持精准修图 • 优化Wide Research子智能体并行效率多模态与全平台 覆盖移动端开发并引入了更精细的视觉交互能力。三、Manus的核心架构理念3.1 以上下文工程为中心Manus 架构最显著的特征是不依赖模型微调而是将所有技术投入在上下文工程上这一理念有两个方面的核心价值1迭代速度从“周级”到“小时级”的进化在传统的开发模式中通过微调模型来提升 Agent 能力通常需要数周的时间进行数据清洗、人工标注和反复训练。Manus 通过上下文工程可以在几小时而非几周内交付改进。这种“天级”甚至“小时级”的反馈循环使得产品能够快速响应用户需求和市场变化。2Agent效果与底层模型保持“正交”关系Manus 团队认为模型进步是“上涨的潮水”而 Manus 是“顺流而上的船”而非固定在海床上的柱子。通过将应用逻辑上下文工程与底层模型能力清晰解耦Manus 能够直接享受 SOTA 模型如 Claude 3.7 或 Gemini 3带来的红利而无需重新训练自己的垂直模型。3.2 文件系统作为终极上下文为了解决上下文爆炸的问题许多代理系统实现了上下文截断或压缩策略。但过度激进的压缩不可避免地导致信息丢失。所以Manus中将文件系统视为终极上下文大小不受限制天然持久化并且代理可以直接操作。模型学会按需写入和读取文件——不仅将文件系统用作存储还用作结构化的外部记忆。基于文件系统可以设计可恢复的的压缩策略同时大大缩减了上下文的大小。3.3 反“拟人化”的Multi-Agent架构不同于市场上将 Agent 划分为设计师、程序员等角色的做法Manus 认为那是受限于人类能力局限的组织形态AI 模型比人类更全能不应受限于人类的组织分工约束。因此他们采用非对等的Multi-Agent架构。主从架构采用 Main Agent - Sub Agent 结构核心由通用规划器、执行器和知识管理器组成。SubAgent as Tool将子智能体实现为可调用的工具而非对等的对话通讯以减少通讯摩擦和信息损失。3.4极简主义架构设计Manus 的架构理念中包含一种去工程化的倾向遵循“Less Structure, More Intelligence”。他们发现最大的技术跳跃往往来自于简化架构和信任模型而非增加复杂的逻辑套路或预设工作流。其目标是让模型的工作变得更简单而不是更复杂。3.5 模型层与应用层Co-Design设计Manus的核心理念是“应用层做船模型层做水”。他们坚持将应用逻辑与模型能力解耦通过极致的上下文工程来弥补现有模型在 Agent 场景下的短板并利用其作为头号客户的影响力反向塑造模型层的演进尤其在以下几个方面的能力1解决工作负载与对齐模式的错位目前的大模型主要为 Chatbot聊天机器人设计在 Agent 场景下存在明显的不适应特别是Prefilling与Decoding的比例变长、急于结束任务的上下文压力、交错式推理的ReAct范式。2提升Tool Integrated Reasoning能力现有的长思维链CoT推理模型如 O1 系列并不完全适合 AgentAgent更需要交错式思考的能力因为Agent 不需要“缸中之脑”式的闭门造车而需要工具集成的推理即在获得工具返回的观察结果后进行简短、精准的中间推理决定下一步动作。此外指令遵循也需要继续提升纯推理模型在 Agent 场景下其指令遵循能力和工具调用的准确性有时反而会下降。3从长上下文转向“压缩意识”模型应该具备压缩意识学会像人一样将非必要的中间过程整理成文档存储而不是让上下文无限增长。当需要使用的时候模型能够意识到信息已被卸载到文件系统中并进行读取。4提升复杂环境下的韧性与异步交互能力模型需要提升错误恢复能力通过专门训练对非代码类错误如环境报错、资源受限的处理能力能够寻找替代路径而非陷入死循环或直接放弃。模型还需要提升异步交互适应因为Agent将逐渐处于持续工作状态用户可能随时插入新指令或补充信息。模型层需要适应这种非对称、异步的通信模式。5提升多模态工具的集成能力在全栈网页开发场景通过 VLM视觉语言模型直接审查自身生成的网页或 UI 是否可用是一种比拆分复杂工作流更高效、成本更低的方案。Agent需要调用多模态工具返回的截图如浏览器页面但是目前模型对这种“作为工具结果的多模态输入”效果不佳。四、Manus的上下文工程实践秉持着以上下文工程为中心的架构理念Manus在对外分享中提到了上下文卸载Context Offloading、上下文缩减Context Reduction、上下文隔离Context Isolation、上下文缓存Context Cache等方面的具体实践。4.1 上下文卸载上下文卸载是一种通过外部工具或存储系统将信息保存在LLM上下文窗口之外的策略。其核心机制是利用文件系统、沙盒环境或“便笺”Scratchpad等形式构建结构化的外部记忆允许智能体在需要时按需读写数据而不是将所有观察结果和中间状态一直保留在原本有限且昂贵的活跃上下文中。通常人们说offload时通常指的是将工作上下文的部分内容移到外部文件中。在此基础上Manus为了应对“工具爆炸”带来的上下文混淆设计了工具卸载的方案他们将工具空间升级为三层架构只将第一层工具加载到上下文中三层抽象设计分别为原子函数层Function Calling保留约 10-20 个核心、高频、模式安全的工具如读写文件、浏览器操作。沙盒工具层Sandbox Utilities对应下图中的红色工具直接在虚拟机沙盒中通过 Shell 调用预装程序如 FFmpeg、MCP CLI将具体工具定义排除在 Context 之外。代码/包层Code/Packages对应下图中的蓝色工具让 Agent 编写动态 Python 脚本一次性执行复杂串行逻辑减少 LLM 往返交互。其实熟悉Claude Skill的同学应该已经感受到了他们思路上是高度一致的底层核心都是“渐进式披露”的理念。4.2 上下文缩减1轨迹的可逆精简Context CompactionContext Compaction是指移除可从文件系统重建的信息如冗长的文件内容过程可逆。这是 Manus 优先使用的手段。它会移除所有可以从文件系统或外部状态中重新构建的信息。以下图为例在执行 file_write 工具调用后Manus 会在上下文中删除冗长的 content文件内容字段仅保留 path路径。这种方法是可逆的如果模型后续需要该信息可以通过路径重新读取从而在不丢失任何关键细节的前提下显著缩短上下文。2轨迹的不可逆摘要Context SummarizationContext Summarization是指在接近“腐烂阈值”时进行不可逆压缩但保留最近的原始调用详情以维持模仿学习。Manus一般在精简操作无法释放足够空间时才会触发摘要操作。在摘要之前Manus 会将完整的原始上下文导出为文本或日志文件存入文件系统确保以后仍可找回。摘要时会使用完整数据而非精简版并保留最近几轮的完整工具调用详情以防止模型由于丢失近期记忆而导致回复风格或任务进度的漂移。4.3 上下文隔离上下文隔离是指在多智能体之间、Agent与沙盒环境之间或者用结构化状态对象来存储图像、音频或大型代码执行结果等高消耗数据仅向LLM回传当前步骤必须的变量或摘要从而在保持状态持久化的同时有效隔离“上下文污染”并精准控制模型的注意力焦点。Manus 实现上下文隔离的核心理念是采用 Main-Sub Agent架构并将子智能体视为可调用的工具Agent as Tool。这种设计旨在防止中间过程产生的冗余信息“污染”主对话流从而提升任务的稳定性和 Token 效率。此外根据任务复杂度Manus 灵活应用了两种不同的隔离策略1通信策略By Communicating子智能体仅接收简洁的指令。适用于短期、目标明确的任务如搜索特定代码片段。主智能体不关心执行路径只拿结果从而实现完全隔离,。2共享上下文策略By Sharing Context在涉及深度研究等复杂场景时允许子智能体“分叉Fork”并共享主上下文。虽然这增加了 Token 成本且无法复用 KV 缓存但能确保子智能体理解复杂的历史背景。4.4 上下文缓存在 Manus 的技术架构中KV Cache 被视为生产阶段最重要的单一技术指标。他们为此进行了以下实践1上下文工程优化为了保持缓存前缀的稳定性Manus 遵循以下准则• 保持前缀稳定避免在系统提示词开头放置动态信息如精确到秒的时间戳否则会导致其后的所有缓存失效。• 只追加Append-only模式上下文历史严格保持只追加不修改过往的操作或观察结果。• 序列化确定性确保上下文序列化如 JSON 化的过程具有确定性例如保持 JSON 键的顺序固定防止因序列化差异破坏缓存。• 显式缓存断点在不支持自动增量缓存的框架中手动在上下文末尾如系统提示词结束处标记缓存断点Cache Breakpoints。2架构层面的缓存优化• 分层行动空间Manus 将工具调用分为原子层、沙盒工具层和代码层。这种设计避免了在上下文中频繁动态添加或删除工具定义从而防止了上下文混淆并保护了 KV 缓存的稳定性,。• 主从架构通过主智能体调度子智能体的模式可以更好地复用主逻辑的缓存实现“省钱且跑得快”。3基础设施与模型选择• 偏好闭源旗舰模型Manus 倾向于使用 Claude、Gemini 等闭源模型一个核心原因是这些厂商拥有比开源方案更成熟、更稳定的全球分布式缓存基础设施在大规模并发下成本更低。• 拒绝参数化个性化Manus 坚持不使用 LoRA 等参数化微调来实现个性化因为这会降低批处理效率并使缓存难以复用最终导致推理成本上升。• 会话路由一致性对于自托管模型如使用 vLLMManus 使用 Session ID 等技术将请求一致地路由到同一工作节点以确保缓存命中。五、其它最佳实践5.1 BenchmarkManus 认为Benchmark是 AI 公司唯一的护城河其实践的核心理念在于将“品味”通过量化的衡量标准转化为可落地的产品力。由于传统的学术基准与用户真实体感存在严重脱节Manus 构建了一套从“可验证结果”到“主观美学”的多维度评测体系。他们进行了以下的一些实践1Benchmark是Taste的落地工具Manus 认为评测指标决定了团队努力的方向。好的 Benchmark 是将创始人或产品负责人的品味对齐到研发过程的唯一工具否则团队容易在错误的目标上南辕北辙。2不能只依赖公开BenchmarkManus 早期关注 GAIA、SWE-bench 等学术指标但发现即使在这些榜单表现优异用户的真实评分也不一定高因为用户更关注网站是否美观、易用等难以自动量化的细节。为此Manus 建立了由三部分组成的评测架构评测层级评估方式核心价值用户反馈金标准收集已完成会话的 1-5 星评分。最真实的生产力反馈直接指导迭代方向。内部自动化测试基于可验证结果如代码运行成功、数据提取准确的专用数据集。确保 Agent 执行事务性任务时的稳定性和正确率。主观评估团队雇佣大量实习生进行人工盲测评估视觉吸引力和交互体验。衡量“美学”和“品味”等无法通过 Reward Model 自动实现的指标。此外Manus还有一套评估Agent架构未来适应性的方法Weak-to-Strong Evaluation他们先锁死当前的 Agent 框架分别运行同系列模型的弱版本和强版本。如果框架能让强弱模型之间的性能增幅Delta最大化则证明该架构具有极强的未来适应性这就让架构能够随着未来模型的不断变强而随之升级。5.2 数据飞轮Manus采用了无参数进化的方案不依赖参数微调而是通过集体反馈实现进化。利用用户对 Agent 的修正和反馈将成功的模式沉淀为系统原生的认知。1收集用户反馈在任务执行中用户会通过纠正偏好教或直接修正错误结果修来提供反馈。2提取共性失败模式系统会分析大量用户交互中的执行痕迹挖掘出通用的失败模式和用户共识并将其转化为系统原生的一部分,。3平台级经验聚合Manus 不仅仅做单用户的记忆挖掘更倾向于在所有用户层面聚合共性的经验教训以文字形式的知识在后续任务中动态注入。为什么不采用参数化微调方案呢他们认为通过模型微调构建飞轮的做法存在严重缺陷迭代速度脱节模型微调的周期以周/月计远慢于产品经理的思维速度以小时计会拖慢初期迭代。保质期极短在 DeepSeek 等快速迭代的背景下SOTA 模型的保质期仅 1-1.5 个月。如果过度依赖自研微调模型会导致系统难以无缝迁移到更强的基座模型上。推理效率下降参数化个性化如 Multi-LoRA会破坏 Batch Size 的规模效应导致推理延迟和成本上升。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】