2026/6/20 11:11:21
网站建设
项目流程
个人网站可以做商城吗,简单的网站有哪些,企业网站的建立,品牌名的选取方法本文系统介绍AI Agent评估方法#xff0c;强调系统化评估对解决Agent调试盲飞状态的重要性。详细阐述评估基本概念、不同类型Agent的评估方法及非确定性处理指标。提供从零构建评估体系的实操路线图#xff0c;包括任务收集、评分器设计和长期维护策略。建议尽早…本文系统介绍AI Agent评估方法强调系统化评估对解决Agent调试盲飞状态的重要性。详细阐述评估基本概念、不同类型Agent的评估方法及非确定性处理指标。提供从零构建评估体系的实操路线图包括任务收集、评分器设计和长期维护策略。建议尽早开始评估从真实失败中获取任务组合多种评分器并持续迭代提高评估质量。做过 Agent 开发的朋友应该都有体会调试 Agent 是个苦力活。你改了个 Prompt跑了几个 case 看起来没问题结果上线后用户投诉说“感觉变蠢了”。你想验证到底是真的退步了还是用户错觉却发现除了手动测几个场景没有任何靠谱的办法。这种“盲飞”状态Anthropic 见得太多了。他们和很多团队合作时发现一个规律早期靠直觉和手动测试能走挺远但一旦 Agent 进入生产环境开始扩展没有系统化评估就会开始出各种问题。这篇文章就是 Anthropic 把内部实践和客户合作经验整理出来的评估指南。我自己在做 Agent 相关项目时也踩过不少坑读完觉得挺有启发翻译分享给大家。评估的基本概念先把几个基本概念说清楚。评估eval说白了就是给 AI 系统做测试给它一个输入用评分逻辑对输出打分看它做得怎么样。本文讨论的主要是自动化评估——开发阶段不需要真实用户参与就能跑的测试。单轮评估很简单一个提示、一个响应、一套评分逻辑。早期 LLM 主要就靠这个。但 Agent 不一样它是多轮运行的会调用工具、修改状态、根据中间结果动态调整。这就让评估变得复杂了。评估结构示意图简单评估是提示→响应→评分。Agent 评估要复杂得多Agent 拿到工具和任务后会执行多轮工具调用推理循环最后通过单元测试等方式验证结果。这里有个有趣的例子Opus 4.5 在做 τ2-bench 的航班预订任务时发现了政策里的一个漏洞给用户找到了更好的解决方案。按评估的字面标准它“失败”了但实际上它比标准答案更聪明。这说明 Agent 评估不能太死板前沿模型的创造性可能超出你的预期。为了构建 AI Agent 评估系统Anthropic 定义了一套术语我整理一下关键的几个•任务Task一个独立的测试用例有明确的输入和成功标准•试验Trial对任务的一次尝试。因为模型输出有随机性通常要跑多次•评分器Grader打分逻辑一个任务可以有多个评分器•转录Transcript一次试验的完整记录包括所有工具调用、推理过程、中间结果•结果Outcome试验结束时环境的最终状态。Agent 说航班已预订不算数数据库里真的有预订记录才算•评估框架Evaluation Harness端到端运行评估的基础设施负责提供指令和工具、并发运行任务、记录步骤、评分和汇总结果•Agent 框架Agent Harness也叫脚手架Scaffold让模型能作为 Agent 运行的系统。评估一个 Agent 时实际上是在评估框架和模型的协同工作•评估套件Evaluation Suite一组为衡量特定能力或行为而设计的任务集合比如客服评估套件可能测试退款、取消订单、问题升级等场景评估组件示意图为什么需要评估体系说实话很多团队觉得评估是额外负担会拖慢发布节奏。早期确实可以不要手动测测、内部试用、凭直觉判断能走挺远。问题是总有个临界点会到来。典型场景是这样的用户反馈说 Agent 改版后变差了而你的团队两眼一抹黑除了猜和手动验证没有任何办法确认。调试变成了被动响应——等投诉、手动复现、修 bug、祈祷没引入新问题。你无法区分真正的退化和噪声无法在发布前自动测试数百个场景也无法量化改进效果。Claude Code 的演进就是个例子。一开始是基于员工和用户反馈快速迭代的后来才加入评估——先是简洁性、文件编辑这些局部领域后来扩展到过度设计等更复杂的行为。评估帮助识别问题、指导改进成了研究和产品团队协作的桥梁。Descript 做视频编辑 Agent他们围绕三个维度构建评估不出错、严格遵循要求、做得好。从手动评分演进到 LLM 评分器定期和人工校准。而 Bolt 起步晚一些在 Agent 已经广泛使用后才开始建评估3 个月搭了一套评估系统包括静态分析评分、浏览器 Agent 测试应用、LLM 评委评估指令遵循等。评估还有个隐藏价值当更强的模型发布时有评估的团队能快速验证、调整提示词几天内就可以完成升级。没有评估的团队则要花数周进行手动测试。一旦评估体系建起来很多东西就是免费的延迟、token 用量、成本、错误率都可以在固定任务集上持续追踪。评估的复利效应很容易被忽视因为成本是前期可见的收益是后期累积的。不同类型 Agent 怎么评估目前大规模部署的 Agent 主要有四类编码 Agent、研究 Agent、计算机操作 Agent、对话 Agent。评估方法有共性也有差异。三类评分器Agent 评估通常组合三类评分器基于代码的、基于模型的、以及人工评分。基于代码的评分器——字符串匹配、单元测试、静态分析这些。优点是快、便宜、客观、可复现缺点是脆弱对有效变体不够宽容缺乏细微判断能力。基于模型的评分器——用 LLM 做评委基于评分标准打分、自然语言断言、成对比较等。优点是灵活、能处理开放式任务缺点是非确定性、比代码贵、需要和人工校准。人工评分器——领域专家评审、众包判断、抽样检查。是黄金标准但贵、慢、难以规模化。实践中通常是组合使用。Anthropic 的建议是尽可能用确定性评分器必要时加 LLM 评分器人工评分器用来校准。能力评估 vs 回归评估这是两种不同目的的评估。能力评估问的是“Agent 擅长做什么”通过率应该从较低开始针对 Agent 难以完成的任务让团队有一个目标可以努力提升。回归评估问的是“Agent 还能做好它以前能做的事吗”通过率应该接近 100%分数下降意味着出问题了。两者要同时跑。能力评估上爬坡时回归评估确保不会在其他地方翻车。等能力评估通过率高了可以升级到回归套件里。编码 Agent编码 Agent 写代码、跑测试、调 bug和人类开发者干的事差不多。评估相对简单因为软件是可以客观验证的代码能跑吗测试过了吗SWE-bench Verified 和 Terminal-Bench 是两个常用基准。SWE-bench 给 Agent 真实的 GitHub issue通过运行测试套件评分Terminal-Bench 测端到端任务比如从源码编译 Linux 内核或训练一个 ML 模型。LLM 在 SWE-bench 上的表现提升非常快仅一年就从原来的 40% 提到了 80% 以上。除了测试通过对代码质量规则、工具调用方式、用户交互行为等转录进行评分通常也很有用。比如考虑一个编码任务代理需要修复一个认证绕过漏洞。如下示例 YAML 文件所示可以同时使用评分器和指标来评估该代理。task:id:fix-auth-bypass_1desc:Fix authentication bypass when password field is empty and ...graders:-type:deterministic_tests required:[test_empty_pw_rejected.py,test_null_pw_rejected.py]-type:llm_rubric rubric:prompts/code_quality.md-type:static_analysis commands:[ruff,mypy,bandit]-type:state_check expect:security_logs:{event_type:auth_blocked}-type:tool_calls required:-{tool:read_file,params:{path:src/auth/*}}-{tool:edit_file}-{tool:run_tests}tracked_metrics:-type:transcript metrics:-n_turns-n_toolcalls-n_total_tokens-type:latency metrics:-time_to_first_token-output_tokens_per_sec-time_to_last_token实践中编码评估通常就是单元测试加 LLM 代码质量评分只有在需要时才会添加额外的评分器和指标。对话 Agent对话 Agent 在客服、销售或者辅导这些场景和用户交互。跟编码 Agent 不同交互本身的质量也是评估内容的一部分。对话 Agent 的成功可以是多维度的工单解决了吗在 10 轮内完成了吗语气恰当吗τ-Bench 和 τ2-Bench 就是这样设计的用一个模型扮演用户另一个是被测 Agent模拟真实场景。对话 Agent 评估通常需要第二个 LLM 模拟用户这和其他类型不太一样。比如对于客服任务Agent 需要为一位沮丧的客户处理退款评估可以这么设计graders:-type:llm_rubric rubric:prompts/support_quality.md assertions:-Agent showed empathy for customers frustration-Resolution was clearly explained-Agents response grounded in fetch_policy tool results-type:state_check expect:tickets:{status:resolved}refunds:{status:processed}-type:tool_calls required:-{tool:verify_identity}-{tool:process_refund,params:{amount:100}}-{tool:send_confirmation}-type:transcript max_turns:10tracked_metrics:-type:transcript metrics:-n_turns-n_toolcalls-n_total_tokens-type:latency metrics:-time_to_first_token-output_tokens_per_sec-time_to_last_token实践中对话 Agent 的评估通常使用基于模型的评分器来评估交流质量和目标达成情况因为许多任务可能有多个正确答案。研究 Agent研究 Agent 收集信息、综合分析、产出报告。这类评估最难因为“好”是主观的。什么算“全面”、“有据可查”甚至“正确”这都取决于具体场景市场调研、收购尽职调查和科学报告各自有不同的标准。BrowseComp 是个有意思的基准其问题设计成容易验证但难以解决专门用来测试 Agent 能不能在开放网络里大海捞针。研究 Agent 评估要组合多种检查基础性检查声明有来源支持吗、覆盖度检查关键事实都包含了吗、来源质量检查来源权威吗。鉴于研究质量的主观性LLM 评分标准要经常和人类专家校准以便有效评估这些 Agent 。计算机操作 Agent计算机操作 Agent 就跟人类一样通过屏幕截图、鼠标点击、键盘输入和滚动来操作软件。它的评估要在真实或沙盒环境运行让其使用软件应用并检查是否达成预期结果。比如WebArena 就是一个专门用来测试浏览器任务的评估标准通过 URL 和页面状态检查导航是否正确并对修改数据的任务进行后端状态核实确认订单确实已下单而不仅仅是出现了确认页面。OSWorld 将其扩展到完整的操作系统控制。浏览器 Agent 有个取舍DOM 交互快但费 token截图交互慢但省 token。Claude for Chrome 专门做了评估来检查 Agent 是不是在正确场景选择了正确工具以便能够更快、更准确地完成浏览任务。处理非确定性Agent 行为在不同运行中都会有所不同这让评估结果比看起来更难解读。同一个任务可能这次通过、下次就挂了或者这次成功率 90%而下次只有 50%。有两个指标可以帮助捕捉这些细微差别passk衡量 k 次尝试中至少一次成功的概率。k 越大分数越高。pass1 就是第一次就成功的概率编码场景通常最关心这个。pass^k衡量所有 k 次尝试全部成功的概率。k 越大分数越低。如果 Agent 每次有 75% 成功率跑 3 次全过的概率是 (0.75)³ ≈ 42%。面向用户的 Agent 特别关心这个因为用户期望每次都可靠。passk 和 pass^k 示意图k1 时两个指标相同。到 k10passk 接近 100%pass^k 降到 0%。选哪个取决于产品需求。从 0 到 1 的实操路线图这部分是 Anthropic 的实践建议我觉得挺实用的逐条说说。收集任务尽早开始不要等完美。很多团队觉得需要几百个任务才能开始实际上 20-50 个从真实失败里提取的简单任务就够了。早期每次改动效果明显小样本量就能检测到。评估拖得越久越难早期产品需求自然转化为测试用例等太久就得从线上系统反向推导成功标准了。从手动测试的内容开始。你每次发布前验证的行为、用户常用的场景、bug 追踪器和客服工单里的问题——这些都是现成的测试用例来源。按用户影响优先排序有助于你把精力投入到最关键的地方。任务要有明确参考答案。好任务是两个领域专家独立看会得出相同的通过/失败判定。任务里的歧义会变成指标噪声。每个任务都应该可以被正确遵循指令的 Agent 完成。评分者检查的所有内容都应该在任务描述中明确说明Agent 不应该因为规范不清而失败。对于前沿模型来说在多次尝试中通过率为 0%即 0% pass100通常意味着任务本身有问题而不是 Agent 能力不足。每个任务配一个参考解决方案证明任务可解、评分器配置正确。** 构建平衡的问题集。** 测应该做的情况也测不应该做的情况这两者应该平衡。只测 Agent 应该搜索的情况可能最终得到一个什么都搜索的 Agent。Anthropic 在做 Claude.ai 网络搜索评估时就踩过这个坑在触发不足和触发过度之间找平衡花了好几轮迭代。设计评分器环境要稳定隔离。评估中的 Agent 要和生产环境大致相同每次试验从干净环境开始。残留文件、缓存、资源耗尽这些共享状态会引入噪声。Anthropic 有次发现 Claude 在某些任务上分数异常高原因是它检查了之前试验的 git 历史——这就是环境隔离没做好。评估结果而非路径。人们通常本能地想要检查 Agent 是否按照非常具体的步骤操作比如按正确顺序调用工具。Anthropic 发现这太死板了Agent 经常找到设计者没预料到的有效方法。为了不无谓地限制创造力更好的做法是评估 Agent 得产出而不是它采取的路径。加入部分得分。对于包含多个环节的任务应设置部分得分。比如客服 Agent 正确识别了问题、验证了客户身份但没能处理退款这明显比直接失败的好。在结果中体现这种成功的连续性非常重要。小心评估本身的 bug。Opus 4.5 最初在 CORE-Bench 上得分 42%后来发现是评分器问题期望96.124991…却对 96.12 判错、任务规格模糊、随机任务无法复现。修复后分数一下就跳到了 95%。仔细复查任务和评分器有助于避免这些问题并注意让你的评分具备防止绕过或破解的能力。Agent 不应该轻易作弊通过评估。长期维护读转录轨迹。这点很重要。除非你读了很多试验的轨迹和评分否则你无法知道评分器是不是在正常工作。任务失败时轨迹告诉你 Agent 是真的错了还是评分器拒绝了有效解决方案。监控饱和度。100% 通过的评估只能追踪回归不能提供改进信号。比如 SWE-Bench 分数今年从 30% 涨到了 80%已经快饱和了。Qodo 最初觉得 Opus 4.5 一般后来发现是他们的评估不够难没能捕捉到复杂任务上的提升。让更多人贡献评估。评估套件是一个需要持续关注和明确归属的动态工具Anthropic 推荐采用评测驱动的开发方式在 Agent 具备相关能力前先构建评测来定义预期能力然后不断迭代直到智能体表现良好。而对于评估来说最接近产品需求和用户的人最有资格定义成功。在 Anthropic产品经理、客户成功经理甚至销售通过 Claude Code 就能以 PR 形式贡献评估任务。创建有效评估的流程评估不是万能的自动化评估能在不影响用户的情况下跑成千上万个任务但这只是理解 Agent 表现的众多方式之一。完整的图景还包括生产监控、用户反馈、A/B 测试、手动轨迹审查、系统性人工评估。每种方法有各自的优劣和适用阶段•自动化评估——上线前和 CI/CD 的第一道防线每次改动都跑•生产监控——上线后检测分布漂移和意外失败•A/B 测试——有足够流量后验证重大改动•用户反馈和轨迹审查——持续填补空白•系统性人工研究——校准 LLM 评分器、评估主观输出瑞士奶酪模型这就像安全工程的瑞士奶酪模型——没有单一方法能捕捉所有问题多层组合才能互相补位。写在最后没有评估的团队会陷入被动循环——修一个问题引入另一个分不清退化和噪声。有评估的团队发现相反的情况失败变成测试用例测试用例防止回归指标取代猜测。Anthropic 总结的原则•尽早开始不要等完美•从真实失败中获取任务•定义明确的成功标准•组合多种评分器•确保问题足够难•持续迭代提高信噪比•一定要读转录轨迹如果不想从零搭基础设施这几个框架可以考虑•Harbor专为容器化环境设计支持跨云厂商大规模跑试验•Promptfoo轻量开源YAML 配置Anthropic 自己也在用•Braintrust离线评估生产可观测性实验追踪一体•LangSmith和 LangChain 生态紧密集成•Langfuse自托管开源方案适合有数据驻留要求的团队需要注意的是框架可以加快起步但最终效果取决于你用于评估任务的质量。建议尽快选定一个框架将精力集中在高质量测试用例和评分器的迭代上。AI Agent 评估仍是新兴领域发展迅速评估方法需根据实际情况不断调整。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】