2026/4/18 7:19:01
网站建设
项目流程
个人网站备案名字,河北seo推广方案,哪个网站做售楼推广好,网站建设及数据分析引言 (Introduction)随着我们步入 2026 年#xff0c;组织不再询问“是否”需要构建 Agent#xff08;智能体#xff09;#xff0c;而是关注“如何”可靠、高效且规模化地部署它们。我们调研了 1,300 多名专业人士#xff0c;以了解他们如何演进 AI Agent 的用例以及如何…引言 (Introduction)随着我们步入 2026 年组织不再询问“是否”需要构建 Agent智能体而是关注“如何”可靠、高效且规模化地部署它们。我们调研了 1,300 多名专业人士以了解他们如何演进 AI Agent 的用例以及如何应对 Agent 工程化方面的挑战。核心发现生产环境势头强劲57% 的受访者已经在生产环境中拥有运行中的 Agent其中大型企业在采用率上处于领先地位。质量是投产的“杀手”32% 的受访者将其列为首要障碍。与此同时对成本的担忧较去年有所下降。可观测性Observability已成标配近 89% 的受访者为其 Agent 实施了某种形式的可观测性普及率超过了占比 52% 的评估Evals。多模型并用是常态OpenAI 的 GPT 模型处于领先地位但 Gemini、Claude 和开源模型也获得了显著的采用。微调Fine-tuning尚未被广泛采用。深度洞察 (Insights)什么是 Agent 工程化Agent 工程化是将 LLM大语言模型驾驭为可靠系统的迭代过程。由于 Agent 具有非确定性我们认为工程师需要快速迭代以提炼和提高 Agent 的质量。大型企业正在引领采用超过一半的受访者57.3%现在拥有在生产环境中运行的 Agent另有 30.4% 的受访者正在积极开发并有具体的部署计划。这标志着较去年的调研有了明显的增长当时只有 51% 的人报告有 Agent 在生产环境中运行。各组织正在跨越概念验证POC阶段进入生产阶段——对于大多数组织来说问题不再是“是否”会发布 Agent而是“如何”发布以及“何时”发布。**规模化带来的变化**在万人以上规模10k的组织中67% 拥有生产环境中的 Agent24% 正在积极开发并计划投产——相比之下百人以下规模100的组织中这一比例分别为 50%已投产和 36%开发中。这表明大型组织正更快地从试点项目转向持久的系统这可能是由在平台团队、安全和可靠性基础设施方面更大的投入所驱动的。领先的 Agent 用例客户服务成为最常见的 Agent 用例26.5%研究与数据分析紧随其后24.4%。这两大类合计占所有主要 Agent 部署的一半以上。客户服务的强劲表现表明团队正转向将 Agent 直接置于客户面前而不仅仅是在内部使用。与此同时Agent 继续在内部提供明确的价值18% 的受访者表示使用 Agent 进行内部工作流自动化以提高员工效率。研究与数据分析用例的流行进一步加强了 Agent 如今的闪光点综合大量信息、跨源推理以及加速知识密集型任务。值得注意的是今年受访者选择的用例分布更加广泛受访者只能选择一个主要用例因此 Agent 的采用可能正在从早期的一小部分应用向多元化发展。**规模化带来的变化**在拥有 10k 员工的组织中内部生产力是首选从用例26.8%客户服务24.7%和研究与数据分析22.2%紧随其后。大型企业可能倾向于首先关注提高内部团队的效率然后或同时再向最终用户部署 Agent。投产的最大障碍质量仍然是投产的最大障碍这与去年的发现一致。今年三分之一的受访者将质量列为首要阻碍。这涵盖了准确性、相关性、一致性以及 Agent 保持正确语气并遵守品牌或政策准则的能力。**延迟Latency**已成为第二大挑战20%。随着 Agent 进入客户服务和代码生成等面向客户的用例响应时间成为用户体验的关键部分。这也反映了团队在质量和速度之间的权衡因为能力更强、多步骤的 Agent 可以提供更高质量的输出但往往响应较慢。相比之下成本被提及的频率低于往年。模型价格的下降和效率的提高似乎已将注意力从单纯的支出上转移开组织现在优先考虑让 Agent 运行得既好又快。规模化带来的变化在企业级2k 员工组织中质量仍然是头号阻碍但安全成为第二大担忧有 24.9% 的受访者提及——超过了延迟而延迟在较小的组织中更为常见。对于拥有 10k 员工的组织书面回复指出Agent 产生的幻觉Hallucinations和输出一致性是确保 Agent 质量的最大挑战。许多人还提到了在**上下文工程Context Engineering**和大规模管理上下文方面持续存在的困难。Agent 的可观测性 (Observability)追踪多步推理链和工具调用的能力已成为 Agent 的入场券Table stakes。89% 的组织为其 Agent 实施了某种形式的可观测性62% 拥有详细的追踪功能允许他们检查单个 Agent 步骤和工具调用。在已经拥有生产环境 Agent 的受访者中采用率甚至更高94% 拥有某种形式的可观测性71.5% 拥有完整的追踪能力。这说明了 Agent 工程化的一个基本真理如果无法透视 Agent 如何推理和行动团队就无法可靠地调试故障、优化性能或与内部和外部利益相关者建立信任。Agent 的评估与测试 (Evaluation and testing)虽然可观测性已被广泛采用但 Agent 评估Evals仍在追赶并获得更多关注。仅超过一半的组织52.4%报告在测试集上运行离线评估Offline evaluations这表明许多团队看到了在部署前捕捉回归错误Regressions和验证 Agent 行为的重要性。**在线评估Online evals**的采用率较低37.3%但随着团队开始监控现实世界中的 Agent 表现这一比例正在增长。对于已经拥有生产环境 Agent 的团队来说评估实践可能更为成熟因为整体评估采用率显著更高“不评估”的比例从 29.5% 降至 22.8%。我们还看到更多的组织运行在线评估44.8%这表明一旦 Agent 面对真实用户团队需要观察生产数据以实时检测问题。大多数团队仍然从离线评估开始这可能是因为其门槛较低且设置更清晰但许多团队正在分层采用多种方法。在运行任何评估的组织中近四分之一结合了离线和在线评估。这些运行评估的组织还依赖人工和自动化相结合的方法进行评估实施“LLM 作为裁判”LLM-as-judge以实现广度并进行人工审查以实现深度。更广泛地说人工审查59.8%在微妙或高风险的情况下仍然至关重要而“LLM 作为裁判”的方法53.3%正越来越多地用于规模化评估质量、事实准确性和准则遵守情况。相比之下传统的机器学习指标如 ROUGE 和 BLEU 采用率有限。这些指标可能不太适合存在多种有效回复的开放式 Agent 交互。模型与工具格局OpenAI 模型在采用率上占据主导地位但很少有团队将赌注押在单一供应商上。超过三分之二的组织报告使用 OpenAI 的 GPT 模型但模型多样化是常态——超过四分之三的组织在生产或开发中使用多个模型。团队越来越多地根据复杂性、成本和延迟等因素将任务路由到不同的模型而不是追求平台锁定。尽管商业 API 很方便但在内部运行模型仍是许多组织的重要策略。三分之一的组织报告投资于部署自有模型所需的基础设施和专业知识。这种开源模型的采用可能是由大批量的成本优化、数据驻留和主权要求或敏感行业的监管限制所驱动的。与此同时微调Fine-tuning仍然是专业化的而非标准化的。大多数组织57%不微调模型而是依赖基础模型结合提示工程Prompt Engineering和 RAG检索增强生成。由于微调需要在数据收集、标记、训练基础设施和持续维护方面投入巨资它似乎主要保留给高影响力或专业化的用例。哪些 Agent 被日常使用当我们问到“你在日常生活中使用最多的 Agent 是什么”时书面回复中出现了一些清晰的模式。**1. 编码 Agent 主导日常工作流。**到目前为止最常被提及的 Agent 是编码助手。受访者反复引用像Claude Code, Cursor, GitHub Copilot, Amazon Q, Windsurf 和 Antigravity这样的工具作为他们日常开发循环的一部分无论是用于代码生成、调试、测试创建还是浏览大型代码库。2. 研究与深度研究 Agent 是第二大常用工具。第二种最常见的模式是由 ChatGPT, Claude, Gemini, Perplexity 和类似工具驱动的研究和深度研究 Agent。这些 Agent 用于探索新领域、总结长文档以及综合跨源信息。它们通常在同一个工作流中作为编码 Agent 的伴侣使用。3. 基于 LangChain 和 LangGraph 构建的自定义 Agent 也很受欢迎。第三组明显的答案指向自定义 Agent许多受访者基于 LangChain 和 LangGraph 进行构建。受访者描述了用于 QA 测试、内部知识库搜索、SQL/Text-to-SQL、需求规划、客户支持和工作流自动化等方面的内部 Agent。相当一部分少数派也指出除了 LLM 聊天或编码辅助之外他们尚未使用其他 Agent这强调了虽然 Agent 的使用很广泛但更广泛的“万物皆 Agentagentic everything”仍处于早期阶段。那么如何系统的去学习大模型LLM作为一名深耕行业的资深大模型算法工程师我经常会收到一些评论和私信我是小白学习大模型该从哪里入手呢我自学没有方向怎么办这个地方我不会啊。如果你也有类似的经历一定要继续看下去这些问题啊也不是三言两语啊就能讲明白的。所以我综合了大模型的所有知识点给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢我就曾放空大脑以一个大模型小白的角度去重新解析它采用基础知识和实战项目相结合的教学方式历时3个月终于完成了这样的课程让你真正体会到什么是每一秒都在疯狂输出知识点。由于篇幅有限⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》扫码获取~大模型学习指南路线汇总我们这套大模型资料呢会从基础篇、进阶篇和项目实战篇等三大方面来讲解。①.基础篇基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念用最易懂的方式带你入门大模型。②.进阶篇接下来是进阶篇你将掌握RAG、Agent、Langchain、大模型微调和私有化部署学习如何构建外挂知识库并和自己的企业相结合学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。③.实战篇实战篇会手把手带着大家练习企业级的落地项目已脱敏比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等从而帮助大家更好的应对大模型时代的挑战。④.福利篇最后呢会给大家一个小福利课程视频中的所有素材有搭建AI开发环境资料包还有学习计划表几十上百G素材、电子书和课件等等只要你能想到的素材我这里几乎都有。我已经全部上传到CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】相信我这套大模型系统教程将会是全网最齐全 最易懂的小白专用课