2026/4/18 5:25:57
网站建设
项目流程
网页设计难还是网站建设南,网站托管流程,wordpress栏目title,衡水建网站多少钱IBM研究人员发布了一款名为CUGA的开源智能体#xff0c;旨在实现复杂企业工作流程的自动化#xff0c;根据不同任务类型#xff0c;其准确完成率约为50%。CUGA是可配置通用智能体的缩写。根据其在AI平台HuggingFace上的介绍#xff0c;该软件通过多智能体…IBM研究人员发布了一款名为CUGA的开源智能体旨在实现复杂企业工作流程的自动化根据不同任务类型其准确完成率约为50%。CUGA是可配置通用智能体的缩写。根据其在AI平台HuggingFace上的介绍该软件通过多智能体编排、API集成以及在企业演示应用中的代码生成实现智能任务自动化。IBM研究团队在今年7月发布的论文中写道我们对IBM CUGA的愿景是开发一个通用智能体知识工作者可以对其进行调整和配置以安全可靠的方式执行工作中的日常或复杂任务。然而并非所有人都认为智能体是安全可靠的。IT咨询公司Gartner最近建议屏蔽所有智能体浏览器此前几个月该公司还警告称约40%的企业智能体项目将因缺乏商业价值而在2027年前被取消。尽管如此自动化的诱惑力依然强劲IBM也热衷于提供帮助。蓝色巨人的研究人员引用了CUGA在WebArena和AppWorld基准测试中的表现——分别实现了61.7%的网页任务完成成功率和48.2%的API任务场景完成率——并指出该智能体的得分虽然对于人类员工来说可能导致被解雇但目前代表了智能体领域的顶级水平。值得注意的是IBM似乎没有使用自家面向企业的WebAgentBench基准来评估CUGA。公司研究人员关于这一自主开发测试套件的论文描述了三个智能体——AgentWorkflowMemory(AWM)、WorkArena-Legacy和WebVoyager——在完成指定任务方面的评估结果。这些智能体的平均原始完成率仅为24.4%符合政策要求的完成率仅为15%。当存在五个或更多政策时符合政策的平均完成率仅为7.1%。而企业通常有超过五个适用于业务工作流程的政策。基准测试论文指出企业工作流程通常包含数十个并发政策这表明现实世界的不足将更加明显政策稳健优化而不仅仅是原始完成率必须成为关注的核心目标。在CUGA获得61.7%成功率的WebArena基准测试中AWM仅获得35.5%的成功率。IBM科学家今年早些时候指出了各种AI基准测试的不足之处但至少CUGA的得分表明智能体正在改进。CUGA采用Apache 2.0许可证发布从聊天层开始该层设计用于从提示中辨别用户意图。这可能是从数字销售中获取收入最高的账户然后将其添加到当前页面或者是HuggingFace演示中包含的任何其他示例提示该演示模拟了一个小型CRM系统配备了20个预配置工具用于进行销售相关查询和API调用。作者解释说任务规划和控制组件分析输入到CUGA中的提示并将目标分解为在任务账簿中跟踪的结构化子任务集。该账簿是动态的当第一次尝试不成功时可以重新规划。研究人员在博客文章中解释说子任务被委派给专门的智能体如API智能体它使用内部推理循环在安全沙箱中调用代码之前生成伪代码指令。系统利用超越MCP协议的工具注册表来解析和理解工具能力实现精确编排。最后系统向用户返回希望符合政策要求的响应。IBM开发团队设计CUGA与Langflow协作Langflow是一个用于智能体设计的低代码平台并支持各种开放模型如gpt-oss-120b和Llama-4-Maverick-17B-128E-Instruct-fp8。巧合的是据报道Llama的制造商Meta正在开发一个名为Avocado的后续模型该模型可能不会开源。CUGA似乎仍有一些粗糙的地方。例如最近报告的一个错误表明该智能体偶尔可能在退出运行循环时遇到问题。但如果您正在部署AI智能体软件并期望毫不费力地自动化多步骤业务任务您可能需要降低期望值。QAQ1CUGA智能体的任务完成率如何ACUGA在不同基准测试中表现不同在WebArena基准测试中实现61.7%的网页任务成功率在AppWorld基准测试中达到48.2%的API任务场景完成率。虽然这些数字对人类员工来说可能不够理想但在当前智能体领域已属顶级水平。Q2企业智能体在实际应用中面临什么挑战A企业智能体面临的主要挑战是政策合规问题。研究显示当企业存在五个或更多政策时智能体符合政策要求的平均完成率仅为7.1%。而实际企业工作流程通常包含数十个并发政策这使得现实应用中的挑战更加严峻。Q3CUGA智能体如何工作ACUGA采用多层架构首先通过聊天层识别用户意图然后任务规划组件将目标分解为结构化子任务并记录在动态任务账簿中。子任务被委派给专门智能体处理如API智能体会在安全沙箱中生成和执行代码最终返回符合政策要求的响应。