2026/4/18 14:34:28
网站建设
项目流程
望城区城市建设投资集团门户网站,扬州网站建设网站,中国最大的私人定制公司,一键生成动画视频【震惊】AI终于能自己写代码了#xff1f;桌面智能体将颠覆程序员工作方式#xff01;
桌面智能体(Agent)正成为AI技术新前沿#xff0c;从对话向行动演进。MiniMax Agent 2.0作为AI原生工作台#xff0c;支持桌面端操作本地文件桌面智能体将颠覆程序员工作方式桌面智能体(Agent)正成为AI技术新前沿从对话向行动演进。MiniMax Agent 2.0作为AI原生工作台支持桌面端操作本地文件通过专家模式提供垂直领域专业知识。桌面端能获取充分Context并操作环境是深入办公场景的最佳方式但面临环境适配、性能延迟等挑战。未来Agent将向自举与自我进化方向发展成为真正能融入工作流的个人助理。[外链图片转存中…(img-7WaUdfv3-1769592898310)]* 本文原创发布于差评孵化的商业财经类帐号 “ 知危 ”过去一年AI 开始逐渐从 “ 对话 ” 向 “ 行动 ” 演进技术走得很快能够直接操作电脑处理复杂任务的 “ 桌面智能体 ” 正成为新的技术前沿和竞争焦点。2026 年 1 月 13 日Claude 发布了 Cowork成为第一个普通人能用图形界面操控电脑文件的 Agent一个多星期后MiniMax 发布 Agent 2.0 版本定位 “ AI 原生工作台 ”不仅上线了桌面端支持 Mac 和 Windows还推出了面向垂直场景的 “ 专家模式 ”。桌面端的优势似乎显而易见能操作大量本地文件处理复杂长链路的任务可能是真正深入人办公场景的最佳环境。但同时面临着诸如复杂环境适配上下文更长性能延迟和安全性等难题。我们想知道行业是如何解决这些难题的以及桌面 Agent 到底能多大程度的深入到用户还是成为一个产品过渡的自嗨模式知危与 MiniMax Agent 2.0 团队核心成员研发负责人阿岛、产品负责人寻鹭进行了一场对话他们从产品、技术、组织和行业等层面详细地解答了我们的疑问并且坦率地承认“ 现在没有一家 Agent 企业敢说自己有壁垒。”如果你是非 AI 从业者这场对话会让你触碰未来如果你是 AI 领域从业者那这场对话一定是你不容错过的前沿思考。以下是对话原文知危进行了不改变原意的编辑。其实桌面 Agent 也有一些同行开始做了MiniMax Agent 2.0 以下简称 2.0 发布的前一周Claude Cowork 就发布了所以 2.0 最初的契机是什么产品研发经历了什么样的过程我们选择在此时上线并不是受同行发布的节奏影响因为不可能在一周内赶出这种产品。其实我们早在 2025 年 9 月初就有了 Expert 专家 模式和增加 Context 上下文 的想法10 月份在内部推行 “ Agent 实习生 ” 验证成功后12 月 15 日正式立项投入。我们在大模型创业公司中算比较精干的 Minimax 的模型和产品线布局最广涵盖三个模态及对应产品。尽管公司有 不到 400 人但具体到每个产品上我们可能都是以一对十 同行 的比例在作战。比如这次的桌面端实际上是 3 个同学用一个月的时间就开发出来的。整个 Agent 团队的研发力量非常精干如果加上产品经理总共也就 4 个人左右。Agent 实习生目前已经在公司内部普及和扩散成了大部分同事离不开的工具。所以 2.0 想解决的最核心问题是什么一句话概括希望通过新的端和更专业的知识水平帮用户解决更多事情干更多的活。2.0 版本涉及更多的环境从之前的网页端扩展到桌面端可以利用本地工作区和更多文件来干活。然后是质量上的提升通过专家系统无论是官方还是 UGC 做的都能将专业知识和流程打包成专家 Agent去高质量完成原本需要领域专家支持的任务。能不能更细致地解释 Agent 2.0 的产品结构对于大多数人来说还是相对陌生。本质上我们认为 1.0 阶段的很多 Agent 只能完成单环节任务更像是一个 Demo。我们更希望看到它在生产力中真正发挥作用这意味着它必须嵌入工作流。2.0 版本源于我们公司的内部版本 内部称为 Agent 实习生 的外化我们对 2.0 的定位是它能像助理或实习生一样在工作流中完整地完成任务并交付结果。基于此它需要延伸出获取充分 Context 的能力。比如内部同事办公场景下Agent 需要能获取到内部各种 SaaS、IT、HR、财务、大数据以及研发用到的监控、报警、代码仓库等所有软件工具的 Context。第二个就是它需要具备相应领域的专业知识。换句话说财务、人事、研发、GPU Infra、文本算法和视频算法的助理它们之间非常不一样。只有做到这一点助理在用户场景下才真正有用能交付有价值且高度可用的任务结果。而不是说依然需要人类输入大量上下文并重度参与交付出一个自动化程度低、不可用的结果。从对外角度看我们做桌面端是因为它是当前获取用户 Context 并操作环境的最佳方式这样才能真正嵌入工作流像助理一样帮用户交付结果。助理的特点是你交给它任务它还你结果你不需要时时刻刻盯着它且你可以帮助它进步。第二点它是领域助理这就是我们外化推出来的“专家”能力。以上这两个核心输入也部分回答了 2.0 是如何生长出来的问题。所以你们内部推行使用 “ Agent 实习生 ” 的时候发生了什么是怎么扩散的扩散过程首先是从最熟悉这些工具的技术和产品团队开始的。核心在于思维的转变每当开始一项工作时首先不是怎么用 Agent而是思考 Agent 是否能解决如果不能它缺什么能力所以先后顺序是研发团队、产品团队、 GPU Infra 团队、 HR 团队、 投资和财务团队最后是销售团队。我们的经验是一套能让大家真正用起来且产生依赖的产品必须具备本地环境、充分的 Context 上下文 、通过 OAuth 接入的云端环境以及针对研发、HR、财务或销售等差异化需求所提供的 Expert 专业知识。Agent 2.0 特别强调 Context 上下文 的重要性那么本地计算机提供的 Context相比浏览器、手机等有哪些不同和优势从用户视角看Agent 是你的代理或助理。在严肃的工作场景中2.0 和手机上只解决简单知识查询的大模型不同我们希望真正像助理一样解决工作以及未来生活中的问题。如果你有一个人类助理你不会觉得它只用手机就能完成专业工作这是不可能的。从 Web 端转到桌面端主要解决了 Web 端无法处理的问题。首先是文件上传的限制以前 Web 版本如果需要用户的文件只能靠手动上传。但出于速度和固有速率的限制网页应用通常会设置上限不允许用户上传 5G 大小或多达 30 个以上的文件。对于有代码仓库的用户或者做图文创意、有大量视频图片素材的用户来说在 Web 场景下根本没办法把这么多文件打包上传。有了桌面端之后用户可以直接选中文件夹进行操作。比如摄影师处理视频素材或者用户盘里有八千张照片需要整理直接操作本地文件夹比上传再下载八千张图片到网页端的流程要好得多。第二个桌面端解决的问题是它能更好地实现浏览器托管场景让 AI 模拟人的点击操作在网页上完成重复动作。比如每天自动爬取 TikTok、Twitter 等热门社媒网站上对公司和产品的评价并在发现负面信息时及时提醒。这种场景如果放在 Web 端做由于我们是通过沙盒来实现加上 IP 洁净度等限制很容易被拦截。但在桌面端启动浏览器时它是可以用用户本身的浏览器来操作的所以跑通网页托管的整个流程会更加流畅、自然。现在无论是自动监控社媒还是自动发布帖子都会比以前更加顺畅。确实现在操作速度还比较慢包括像 ChatGPT Atlas 的操作也比较慢。浏览器托管的速度问题和它的理解效率问题是大家一直需要去优化的方向。对于手机端 APP 我们一直做得比较轻没有把专家模式等重模式搬上去。原因在于我们观察到用户使用 Agent 的方式与常规 Chatbot 主打搜索、写作不同它更多是 C 端用户在解决工作场景中长程、重复且繁琐的操作。这类任务时间跨度大不是在手机上发起后能即时得到回答的用法如果只是即时需求用户也不需要求助 Agent。此外在手机端操作网页或软件会受到系统及应用权限的严格限制挑战更高所以目前我们不太会触碰这一块。关于运行 Agent 2.0 的环境为什么不采用目前常见的云端沙盒而更多依赖用户的本地电脑环境云端沙盒除了有被风控拦截问题从更专业的角度看它本质是面向通用场景的。举个简单的假设比如专业的视频剪辑团队肯定配有非常好的机器、超大内存和高性能 GPU或者是 Mac Ultra 系列这种拥有大统一内存和 APU 的设备。只有这样在跑 FFmpeg 这种视频处理任务时才能达到很好的性能。但你不太可能在一个通用的沙盒里去满足各种各样的需求。比如我们的服务对象如果是算法工程师或 Reddit 上 LocalLLaMA 社区的爱好者他们机器上可能装了好几块 A100这显然不是沙盒能解决的问题。如果希望 Agent 对专业用户在特定场景下真正好用桌面端就有不可替代的优势包括之前提到的 Context。桌面端还有一个至关重要的优势长期的 Context 沉淀与记忆构建。在桌面端我们并不是只依赖用户指定的单个文件。随着 Agent 在用户电脑上运行时间的增长它会越来越了解用户的上下文并自动构建关于该用户及其工作环境的 Memory。很多时候你甚至不需要重新上传或详细说明只需给出指令只要是你过去曾经操作过或存在于环境中的事情它就能直接处理。这种深度环境感知和记忆积累是 Web 端无法实现的因为 Web 端缺乏这种持续且原生的运行环境。最后必须强调今天 Agent 进步的最大瓶颈之一是 Agent Infra 可以简单理解为智能体的基础设施 。[外链图片转存中…(img-yOp8Zf51-1769592898312)]为什么这么说比如刚才说到了关于风控拦截或身份验证的方面这叫 Agent Auth。即 Agent 作为你的个人助理如何能真正代表你的身份在云端沙盒上它无法真正代表你因为它不是你个人的机器没有你的 IP 指纹、User Agent 等信息产生的操作更容易引发安全性讨论。但在你的本机它就是你的个人电脑代表你的个人身份。在这里操作浏览器或处理事务身份对标非常明确不会存在这方面的问题。我们横向对比了所有获取网页信息的 Agent无论是像 Browser Use 这样专业的、Manus 这样通用的还是 ChatGPT、Claude Code 等。最终结果是在 Cloudflare 这种网络安全服务商的反爬、反垃圾机制面前成功率普遍不高。即便人类接管去点验证码插件也很有可能因为被识别出不是真实的桌面环境而无法通过。这就是目前 Agent Infra 面临的现实挑战。我个人的观点是未来人类行为和基础设施都会面向 AI 重新组织届时会有更不一样的形态和更好的方式来验证 Agent 的代理身份。但就目前而言桌面端形态在这些方面是难以替代的。如何理解云端沙盒本质是面向通用场景的却又无法满足很多需求这是否矛盾Agent 2.0希望面向通用还是垂直场景云端沙盒所谓的“通用”往往意味着只能处理浅层的、所有人适用的简单任务。而真正的 “ 通用 ” 应该是能够深入并覆盖各种专业场景。正是为了实现这种高阶的通用性我们才必须开发 “ 专家 ” 能力和桌面端。因为只有深入到每个人的具体专业环境、调用高性能硬件并理解其特定的工作流Agent 才能在各种垂直领域都把活儿干好。换句话说我们的目标是通过深度专业化的能力最终达成真正意义上的、全场景的通用。比如写公众号。在你的本地环境Agent 可以内化你过往积累的大量素材、写作习惯和风格并索引历史资料在你写新文章时直接给出一个高度契合的初稿。这种深度的个性化能力云端沙盒是无法实现的。相对而言云端沙盒擅长的是那种完全脱离个人环境的任务比如“去网上收集 100 双耐克鞋的信息”只需要通用互联网访问能力。回顾去年行业内所谓的 “ 通用 Agent ” 大多停留在 “ 啥都能做一点 ” 的 Demo 阶段。比如我们早期的 Lightning 和 Pro 模式内置了几个处理 Deep Research、PPT 或网页开发的 Sub-agent这只能算浅层的通用。但在去年下半年通过访谈法务、财务等职能部门我们发现真正的 “ 通用 ” 必须达到 Production Ready 生产就绪 的标准。这意味着它不能只靠一个死板的预设框架而必须是一个优雅、灵活、可路由且可插拔的专家模式。举个例子金融领域的 Deep Research 关注的是研报和实时行情数据而法律领域则需要接入完全不同的判例数据库、法规接口且国内外的法律逻辑也大相径庭。如果只用一个固定的通用框架由于预接的 Data Source API 偏向性 比如偏金融 它在法律场景就无法深入。所以我们现在的自定义模式允许用户叠加更多 “ 专家 ”本质上是通过这种高灵活性的框架在各个垂直领域实现真正的、深度的通用化交付。Agent 2.0 的产品形态比较新颖您希望如何提升用户认知并带动用户增长Agent 2.0 这种产品绝不是互联网时代的买量产品它首先不会完全受限于手机端其次它深耕于生产力场景而非娱乐或搜索这类浅层的通用场景。增长的关键首先在于产品要达到极佳的效果并真正解决问题其次要运营起相应的口碑和社群建立良好的品牌并基于实际的使用案例进行传播。因此我们的增长路径会更接近 Cursor 或 Lovable 等海外产品的成长模式。用户可能并不是因为知道 MiniMax 是一个通用产品才被吸引而是因为在某个帖子中看到它做营销、社媒监控或特定领域的工作非常好用才过来的。针对垂直领域和专精 Agent我们在获取用户和提升渗透率上面临挑战。因此Expert 模式的下一个目标是产出更多 PGC 和 PUGC 内容同时想办法激励更多 UGC 专家涌现。在这个过程中我们希望用户是因为有一个明确的问题或特定领域的诉求来使用 MiniMax Agent而不是拿到一个看似无所不能、却让人不知道该拿它来做什么的通用产品。Cursor 和 Lovable 增长策略的核心点在于首先抛开常规手段最关键的是能抓取并定义一个极具潜力的新场景。这种对场景的创新定义能力决定了其后续做 PUGC 增长时能够具备极高的初始势能并在起步阶段就达成非常强悍的结果反馈。另外Base44 自建了一整套数据库和云端托管基于这些观察我认为增长的核心在于两点产品定义足够新颖能在初期形成强大的势能产出极具说服力的结果。通过真实用户的 Use Case 进行口碑传播和扩圈而非通过大规模买量吸引非核心用户。投流获取的流量往往伴随着高流失率只有让核心用户带动的裂变才能保证增长的质量和精准度。要形成增长势能首先需要明确核心场景。关于这一点我们在海外已有明确的认知海外用户在 Vibe Coding 以及视频、图文创意素材方面有极强的诉求因此我们在 PGC Expert 的打造和引流方向上有清晰的指引。在国内市场由于 MiniMax Agent 上线相对较晚 去年 10 月上线近期才正式增加交流与露面 目前我们仍处于对国内用户行为的分析与拆解阶段。在未来一两周内随着我们推出的 Expert 方向和新动作大家会看到更清晰的思路。同时我们也正通过观察目前逐渐沉淀下来的核心用户研究如何进行转化并学习如何借由他们深入国内特定场景从而找到更适合国内环境的用户裂变点。目前用户对 Agent 的认知似乎还处于早期阶段我们了解一些做 Agent SaaS 的企业他们最大的痛点是由于企业或个人不确定 Agent 到底能做什么导致需求与技术无法完全匹配使得 SaaS 公司不得不像咨询公司一样去介入。相比之下MiniMax 作为一个通用平台可能很难像垂直 SaaS 那样提供类咨询的服务大部分场景需要靠用户自己挖掘您是如何看待这个问题的如果是针对 C 端用户我们会想方设法尽可能缩短用户从进入到使用的路径。目前 Agent 页面缺乏问答指引和示例 Query用户看到简单的文字介绍或浏览量并不清楚实际产物效果。所以下周我们会做的一件事就是通过增加示例 Query 和展示过往优秀产物让用户对专家的能力有明确预期知道类似的输入能得到什么样的结果。我们更倾向于站在 C 端产品的视角通过优化交互和用户友好型的迭代而不是靠一对一咨询的形式来缩短用户与 AI 能力之间的距离。目前业内普遍认为 Agent 的切入点应先聚焦于企业垂直领域其核心竞争力体现在两个维度一是 SaaS 厂商的先发优势通过多年积淀的固化流程实现对业务场景的深度覆盖二是垂直 AI 公司的专业深度通过深耕金融、法律、医疗等高门槛行业建立技术护城河。MiniMax 作为底层大模型厂商如何在保持通用能力的同时和在 “ 流程闭环 ” 与 “ 行业深度 ” 有优势的竞争对手竞争这里的核心在于我们对未来的判断未来人类的组织和基础设施是会围绕 AI 与 Agent 重新构建以达到 AGI还是由 AI 和 Agent 去迎合现有的组织与基础设施这是一个核心的判断。在此前提下我们要明确的是想追求真正的 AGI做一个具备强大智能且能广泛满足用户深度需求的产品还是想做一个收入和盈利都还不错、甚至仅仅是一块生意层面的业务最近我也面试过一些候选人其中一位从 2023 年 GPT-3.5 阶段就开始做 Automation 和 Workflow在当时算非常领先。但迫于生存压力他们本想做通用的产品最后只能转而成为垂直领域的信息爬取专家比如做销售线索或简历筛选。最终他们搭建了一套深入行业的 Workflow盈利表现不错但规模也因此受限。如果他想切入另一个行业就必须按照这个模式重新再做一遍。所以我们对未来的判断很明确我们要选前者而不是做后者。我们公司不依赖那种规模受限的垂直生意这是前置判断。其次我们也不是要做一个无人问津的 “ 阳春白雪 ”像寻鹭刚才提到的我们认为走前者的路径通过 Expert 模式、Agent 的自我进化以及 Agent Infra 的演进能够获取足够的 Context 和 Memory最终在用户领域做得越来越好。这不仅依赖于底层模型的进步更取决于多模态理解模型 VLM 的突破。虽然现在浏览器操作慢、效果不佳是因为 VLLM 仍落后于大语言模型但我们看到 VLLM 也在快速进步。归根结底这在于是否相信 Scaling Law 和摩尔定律如果相信我们坚定选择前者。企业内部许多固化的合规或处理流程往往并不适合直接用 “ 自主决策 ” 的 Agent 完全替代。目前很多企业的做法是将流程中的某个节点 如合规检查 替换为大模型节点这更像是一种规则自动化而非真正的 Agent。如果跳出产品本身从 AI 工具化的未来方向来看企业自建 Agent 的现象确实会长期存在。任何具备资源和技术信念的企业在意识到 Agent 能显著提效时第一反应往往是观察外部方案随后拉起内部团队自研。这是一种正常的商业决策尤其在涉及核心业务逻辑时。如果是为了快速获得 PMF 产品与市场契合产品马上就能出售获利 切入金融、医疗等垂直场景确实更高效。他们往往通过大量的模板、路由工程和固定的 Workflow 来保证稳定性这在底层逻辑上可能并不是一个开放的 Agent 框架而是一个深度的行业工具。针对垂直与通用的争议我们坚持深耕通用框架。我们的核心目标不是停留在表面的“万能”而是通过构建一个更高阶、更稳健的底层框架能够容纳并理解用户长期积累的复杂数据而不仅仅是单次任务的片段信息并且能够无缝深入到各种本地、云端甚至复杂的企业生产环境。MiniMax团队在研发Agent实习生的过程其实是一个不错的企业该如何走向Agent模式的样本但是似乎很少有企业能做到这么顺畅传统企业转向 Agent 模式的最大障碍并非技术本身而是人的思维与组织方式的重塑。这种转变是一个动态进化的过程正如 Minimax 团队自身在过去一年也经历了从不适应到 “ 离不开 ” 的认知升级。这种进化的成功取决于两个核心维度的交汇一是人的接受度即个体对 AI 等新事物的开放心态与驾驭能力二是技术的成熟度即模型与 Agent 性能的实质性飞跃。即使在 MiniMax 这样的技术驱动组织中资深工程师初期也会因为固有的经验路径而对 Cursor 等 AI 工具产生抵触与不信任。因此通用平台的发展不能只停留在浅层功能而应支持用户在认知转变后实现深度的协作进化。我们内部推行 “ AI First ” 和 “ Agent 友好 ” 的原则要求无论是研发、财务还是产品都要主动将 Context 和知识体系结构化确保 Agent 能够无缝获取信息并发挥巨大的效率杠杆作用。这种 “ AI 原生 ” 的工作习惯让环境变得易于被 Agent 理解和调用才是释放 AI 潜力的关键前提。我们会打造这样一套产品和框架去帮用户往这个方向实现但前提是用户得有这个思维得愿意这么做。这就像 Everett Rogers 提出的创新扩散理论里说的从 Innovator 创新者 到 Early Adopter 早期采用者 有一个过程。我们觉得现在还处于早期大家的 Mindset 思维 在进步能力也在进步。它一定会有个临界点就是当能力进步到所有人无法忽视的时候。拿我们团队举例现在我根本不需要去建议任何一个同学用 Claude Code大家已经深刻体会到它的威力了。但在最开始那个时间点我得告诉大家而且得把这件事弄得足够简单。所以我觉得整个演化逻辑是最前面是技术进步带动一部分领先者的 Mindset 思维 改变当这部分人拿到实实在在的收益被其他人看到后接下来的 Infra 和所有人的组织方式才会围绕它发生变化。我们的产品就是要在这种演化过程中跟随并推动这种成长。会比较好奇在 MiniMax尤其是 Agent 产品的开发中产品端和研发端是怎么合作的团队间的合作机制主要分为两个层面。在产品与开发的合作中Agent 团队内部的职责边界正在逐渐模糊。不同于传统互联网大厂由产品给出静态 PRD 后交付给固定开发团队进行交付、测试、上线的模式目前的合作流程极大缩短了前置距离。产品人员也会直接参与 “ 搓 ” Expert、优化框架或产出 Vibe Coding Demo 等工作这种协作方式更加灵活且紧凑。以表单应用为例很多时候是产品直接通过 Vibe 快速搭建出雏形再由设计师接入调整样式随后便直接上线。大家在 Agent 首页看到的许多表单应用、运营位应用以及 PGC Expert其实并非出自开发之手而是产品利用Cursor和高效协同模式快速实现的。而且有想法的开发人员也会针对特定场景提出很有价值的应用方案。所以至少在我们的团队里面这个合作的模式正在消解传统的权责边界。在分工上大家依然保留着传统职能比如产品经理仍会承担大量的竞品调研、用户研究以及 Query 分析等基础工作。但在处理具体的某个产品化 Feature或是面对一些比较紧急的需求时分工形式就与传统的互联网大厂不太一样。这种合作模式像是一种“分布式”的协作虽然每个人在研发或产品等专业领域各司其职但创意的边界是模糊的。关于产品方向和用户价值的 idea大家都可以随时抛出来。比如在推出 Experts 框架时研发端和产品段都感受到原先 Pro 框架的限制而想到了 Expert 这个 idea技术端看到的是技术框架上的变化而产品同学则能敏锐地将其转化为真正对用户有价值的落地方法。在具体执行上研发会同步进行类似 “ 内部实习生 ” 的功能尝试而产品和设计同学则可能直接通过 Vibe coding 跑通前端再由研发承接后续深度开发。这种协作的结果是大家打破了原有领域的思维定式。因为 Agent 类产品具有 “ 技术与产品高度合一 ” 的特性研发不能只钻研技术产品也不能只考虑功能双方都会有端到端的视野和双边思维。但是也都有各自擅长的地方毕竟每个人的精力和擅长领域终究有限。那么 Agent 团队和模型团队的协作关系是怎样的[外链图片转存中…(img-QYHyNdRZ-1769592898314)]研发端与模型团队的合作更多是提供应用层视角的认知与输入。目前模型面临的核心问题是评估与任务设定而学术界的评估指标 如 SWE-bench 并不能完全代表现实生活中的任务。例如上半年大家都在看 SWE-bench但现在它已经趋于饱和且更多代表的是 Bug fix 的能力也就是从 80 分到 90 分的过程而无法代表 Vibe Coding 这种从 0 到 1 构建项目、甚至增加 Feature 的能力增加 Feature 更多代表从 10 分到 80 分的过程难度显然大很多。因此Agent 团队会面向真实的内部用户场景去构建自己的 Benchmark。比如我们构建的 Benchmark 往往针对当前市面上所有 Agent 都做不好的挑战性任务 得分可能仅在三四十分左右 。这些任务并非凭空想象而是从用户的真实痛点中发掘出来的。所以我们构建的 Benchmark 更能代表真实世界的分布从而指引其转化为适合模型训练的标准。以我们最近开源的 VIBE Benchmark 为例它专门用于评估模型在全栈开发 包括 Web、移动端、桌面端 上的表现。这一成果结合了产品视角的输入与研发团队的专业深度因为研发团队最懂服务端和 WEB/APP 开发的本质。在 Vibe coding 开发能力的定义上我们和模型团队共同确立了“全栈开发”的目标。这体现了双方的核心关系模型任务与能力的定义必须具备用户视角才能产生真正的生产价值而模型能力的提升又直接支持了 Agent 的需求使其做得更好。桌面 Agent 是比较新颖的产品形态又涉及用户的私人数据输入用户难免会有存储安全和隐私安全方面的担忧MiniMax 如何解决这些安全隐患MiniMax Agent 的运行时 Agent Loop 以及与大模型的交互是在云端进行的但它的所有工具环境包括命令行执行、本地文件读取、文件操作以及浏览器操作全都在用户的本地完成。这也是为什么桌面端和网页端的记录没有同步因为两者的工具和文件工作区是完全隔离的这主要是出于安全和隐私的考虑。针对本地执行命令行可能带来的安全挑战我们主要通过产品设计和权限边界控制来应对。这并非新鲜课题像 Cursor 等成熟 IDE 已有完备的机制。我们的设计参考了行业标准尤其在处理权限申请时会明确询问用户是 “ 仅限本次允许 ” 还是 “ 始终允许 ”。当 Agent 涉及操作未授权的文件夹、进入新的工作区或执行之前未允许过的命令时都会触发弹窗让用户进行 Double Check。目前我们拥有一个固定的高风险命令列表并结合模型进行判断未来还会根据用户反馈持续补充这一列表进一步加强在安全和权限边界上的交互确保 Agent 的行为在用户知情且可控的范围内。从技术层面看我们对命令安全性的控制主要关注其是否具有破坏性或不可逆性。首先通过基于规则的第一层过滤确保高召回率以兜底风险但可能覆盖不全、没那么灵活或有一定的误伤概率其次通过大模型智能判断进行第二层识别以提高准确率。技术上最核心的保护对象是数据。相比于容易通过程序命令备份和恢复的开发环境数据的损失往往是不可逆的。因此我们让大模型进行智能判断首先优先寻找可逆的操作方案来替代不可逆操作比如用“移动到回收站”代替“直接删除”其次如果操作确实不可逆且无法替代则判断是否可以先备份再执行。在完成这些前置逻辑后模型会判断是否需要提示用户确认并同步给出命令的解释以及存在的风险说明。目前“ 移动到回收站 ” 功能已在最新版本支持服务端也已下发风险提示逻辑前端 UI 正在紧锣密鼓地适配中。不只是普通用户即便对于专家级用户在 Agent 2.0 中构建 “ 专家 ” 可能也不是容易的事情或者会很繁琐确实有门槛MiniMax 如何让用户更轻松地构建“专家”针对如何帮助用户基于长期积累的 Context 生成专家我们目前主要提供两种路径重点解决配置门槛问题。首先是 AI Creator对于不熟悉 Sub-agent、Instruction、Skills 或 MCP 配置的普通用户我们提供了一个 AI 驱动的创建工具。用户只需提供非结构化的知识 如一段 SEO 专家的文本资料 AI 就能自动解析并完成复杂的后端配置。以 SEO 专家为例AI Creator 可以自动将任务拆解并配置成三个协同工作的 Sub-agent同时自动配齐对应的 Skill 和调度指令明确它们之间如何协作。这种方式的优势在于它能迅速将用户的专业经验转化为可执行的 Agent 架构而不需要用户具备任何技术背景。AI Creator 的核心价值在于将复杂的 SOP 自动转化为最优架构。用户只需将已有的知识库或 SOP 发给 AI它就能在我们这套功能强大但配置相对复杂的专家框架中自动匹配出最优的 Sub-agent 组合、Skill 定义和指令集。用户无需手动编辑繁琐的文档或参数。如果发现专家执行效果不佳只需像聊天一样告诉 AI“ 它在某处处理得不好帮我修改一下提取逻辑或解决方案。”我们在制作 PGC 专家时也发现最有效的调优方式并非手动改代码而是通过对话引导 AI 迭代。因此我们将这套内部实战经验沉淀到了 AI Creator 框架中让普通用户也能以自然语言交互的方式打磨出生产级别的专家。除了 AI Creator我们还提供了手动配置模式。这种模式特别适合有经验的 “ 深度玩家 ” 或已有积累的用户。如果用户此前在 Claude code 或其他 Agent 平台上已有成熟的 Prompt、Sub-agent 设定或 Skill 技能 可以直接 “ 丢 ” 进我们的框架中进行复用实现无缝搬迁。无论是 AI 自动生成的还是手动搬迁的专家调优过程都极其简便。用户只需通过自然语言反馈AI 就会辅助用户完成指令和逻辑的迭代优化。接入本地计算机 Context会带来推理成本暴增吗确实大家可能会担心 Agent 场景因为接入了用户个人电脑的数据输入量变大成本会比以前的产品高很多。但其实测试下来还算好。就像有用户问理解图片和视频会不会很费积分其实这种理解类任务反而不太会因为这类工具的消耗是比较容易控制的。当然如果是生成类任务确实是另外一个量级也跟任务复杂度直接挂钩。本地环境的 Context 并不会导致上下文暴增。虽然用户本地可能有很多数据比如一个一万字的文档但我们的 Agent 并不是简单地一次性读入这整整一万字。它会根据用户的具体意图更多地通过检索的形式去获取最相关的段落。所以在本地处理数据本质上并不会比其他场景产生更大的消耗差异或负面影响。说实话用户真的不好判断积分 使用 2.0 会有积分的消耗 的消耗情况这不是单纯以 token 多少付费。官方这边也一直在持续优化消耗速率目标是让用户的任务能在一个 ROI 比较高的区间内完成。比如下周我们要发布的一个功能就是做模式的 Routing。因为很多时候任务复杂度不高Agent 完全可以自动调用“高效模式”快速搞定不一定非要调用昂贵的 Pro 模式。除此之外我们一直在优化积分消耗。比如之前为保证最终效果一些环节会让 Agent 做大量的自动化测评后来我们增加了 “ 用户确认项 ”用户可以选择是完全交给 Agent 去跑测试还是由自己来做测试并把观察到的点反馈给 Agent从而更高效、更省积分地完成修改。虽然积分消耗逻辑目前还比较初级但我们会持续增加它的透明度和用户友好度。比如最近收到不少关于整理文件夹等场景的反馈我们会不断优化这些具体场景的消耗速率。其实这跟我们内部做 Agent Benchmark 的逻辑是一致的我们不会为了追求一个极致的结果而不计成本。在我们评估一套新框架时除了看任务得分也会严格考察任务时长和 Token 消耗如果得分很高但 Token 消耗增加了 5 倍那我们并不认为这是一个好的方案。您多次强调 Agent Infra 的重要性以及对当前 Agent 发展的限制行业当前现状到底是怎么样的距离理想状态还有多远Agent Infra 目前确实还处于非常早期的状态。首先从协议标准和交互方式的角度在我看来MCP 也不是一个特别完备的定义其实并不特别适合 Agent我相信还会有新的标准出现大家也在不断尝试。另外一个角度是大家要提供面向 Agent 的能力这种能力可以是 MCP也可以是一个更完备的定义比如带有脚本和 API 的 Skill核心是这些能力要能提供出来。就像淘宝在电商时代通过支付宝这个创举利用第三方托管解决了支付这一核心 Infra电商的另一个核心 Infra 是履约比如快递和电子面单Agent 领域也需要类似的底层支撑。所以理想的 Agent Infra 应该是首先是身份认证要能像担保支付一样确认 Agent 是安全且代表用户本人的。第二个是像电商履约链路一样连接各种服务和 SaaS。这包括企业内部 SaaS 和用户常用的外部软件比如 Notion、外卖、医疗、线上办公相关的文档、IM、邮件、日历甚至财务系统和支付。在有身份认证的前提下信息提供方式也会改变。现在的网页是提供给人看的 HTML未来也许会有专门提供给 Agent 的格式或者随着 VLM 的进步HTML 依然存在但会从面向 SEO 优化转向面向 Agent 优化。比如为了让 Agent 快速导航HTML 的标签需要变得更具语义化。总结一句话就是所有的基础设施、软件服务和人们的 Mindset都将面向 AI 和 Agent 来重新定义和提供。我坚信这件事情一定会发生。专家的提示词设计有两点值得注意一个是专家下还会设置 Sub-agent这种双层结构的好处是什么这种 Sub-agent 结构和单一 Agent Single Agent 或 Skills 的模式相比核心好处在于子 Agent 更适合处理那些领域性强、非常具体的任务。子 Agent 可以被看作是一个专注特定领域的 “ 小专家 ”它能够配备专属于这一块任务的工具和 Skills。Skills 并不是只能挂在最上面那一层子 Agent 同样可以拥有自己的 Skills。以制作视频为例如果用一个 Single Agent 挂载所有 Skills 来做效果会很差首先它的上下文会 “ 爆炸 ”其次满载了各种杂乱信息的上下文会分散它的注意力工具集也会变得非常臃肿很难把活儿干细。采用 Sub-agent 结构的好处就在于 “ 专注与共享 ”比如你可以把导演、脚本分镜、素材生成、后期剪辑分别交给不同的子 Agent。虽然它们各司其职但因为共享同一个工作区并且都能调用 Memory 工具所以它们能拥有同样的上下文记忆。这种模式既保证了信息的同步又让每个子 Agent 能够专注于自己的专业环节把事情做得更深、更好。此外因为每个 Sub-agent 拥有独立的 Context Window不容易触发上下文压缩总结。大家应该都知道一旦触发压缩模型就非常容易 “ 降智 ”。其次是 Sub-agent 具备不可替代的 “ 并发能力 ”。比如你需要同时创作 3 个分镜或者同时调研 10 家上市公司。如果你只用一个 Single Agent 配一堆 Skills它只能像排队一样一家一家做过去既慢又做不深。所以这两点最关键一是专注通过上下文隔离让任务做得更深、更好二是能更好地处理并发。那么 Skills 适合什么场景呢Skills 适合那种不需要做得特别深、一个任务就解决一件具体事情的场景。比如说帮我处理一个 Excel具体用什么 Python 函数或者需要什么样的 Excel 风格。所以 Skills 这种形式它更像是一个知识库动态加载的 System Prompt。当一个 Agent 在处理一件事 比如文档处理 时它可能会面临不同的情况一会儿是 Excel一会儿又是 PDF 或 Word。这种时候你根据需要去动态加载对应的能力一次只做一件事就很合适用 Skills。Agent 与 Sub-agent 之间并非只有单纯的并行执行而是支持基于 SOP 的序贯协作。以深度调研 Deep Research 场景为例系统会先启动调研 Agent 生成多份分散文档随后由报告专家接手进行整合并添加图表最后交给排版专家输出精美的 PDF 或 Word 格式形成一条完整的流水线。至于更高自主性的多智能体交流也有一些例子例如国外的 “ 德州扑克 ” 专家或国内未来可能考虑上线的 “ 狼人杀 ”、“ 打麻将 ” 等应用通过在指令中设定游戏规则多个智能体可以在规则框架下进行互相交流、对抗或协作。用户既可以作为旁观者观察这套 “ 赛博生态 ”也可以作为玩家参与其中。另一点是提示词 Token 数限制是 5 万但一般在此规模上下文下模型表现会受限不是吗对于设定 5 万 token 的高上限核心逻辑是不希望人为在框架层面限制用户尽管模型表现可能在这个量级可能受到影响。在产品设想中用户基本不会手写如此冗长的提示词而更多是由 Agent 自动生成并分配关于这部分内容是初始加载动态加载 Skills还是放入 Sub-agent 运行。设定一个非常大的上限也是为了兼容复杂的业务场景。例如在需要同时调度 10 个 Sub-agent 的情况下Instruction 需要详细规定各 Agent 的并行调用逻辑或执行顺序。以 PGC Expert 中的“热点追踪”为例即便经过压缩其指令量依然巨大因为它涉及五六个 Sub-agent执行中间需要并行对挖掘出的热点话题再做一轮深度研究。但在大多数情况下如果通过 AI Create 的方式生成指令token 数通常会自然维持在 5000 左右。目前Agent 2.0的PGC、PUGC专家中复杂度比较高的专家实例是什么我们海外应用端有一个炒股专家实例融合了两个热门 GitHub 项目Trading agents 与 AI hedge fund。首先是 Trading agents 负责的精细化调研阶段它会抓取海量价格数据、分析各项技术指标并实时监测市场舆情。紧接着进入 AI hedge fund 模式该流程内嵌了 18 个风格迥异的投资专家 如侧重 PE 比率、不同风险偏好或长期持有逻辑等 随后由 18 个专家组成 “ 议会 ” 进行内部磋商并投票决策买入与退出时机最后由风险专家和管理专家把控全局并输出高质量的结项汇报。比如我们以 “ 英伟达能不能买 ” 等具体问题为切入点通过详细调研后由类似设定好的 “ 巴菲特 ”、“ 芒格 ”、“ 彼得·林奇 ”、“ 木头姐 ” 等 9 位大师组成模拟议会。每位大师根据各自的投资风格 如价值投资、成长性分析或风险对冲 给出具体的买入/卖出建议、仓位配比以及格式化的逻辑分析。这种模式比盲目满仓更理性能有效通过多维度分析规避风险。实际测试中大师们的集体判断往往比个人主观判断更具参考价值能够帮助理财小白避免掉坑。[外链图片转存中…(img-uUUwhnrG-1769592898315)][外链图片转存中…(img-qLtsMDwF-1769592898315)]我们观察桌面端可能还存在 Context 完整性的限制比如有些企业的数据可能基本都在云办公软件中MiniMax 打算如何克服这种限制其实在公司内部我们其实有一个在飞书里运行的 Agent 实习生只要飞书开放 API 就能较好地接入。对于外部用户并非所有企业的数据都在即时通讯工具里云端可能更多起备份作用。桌面端是我们拓展 Context 和环境的第一步将 Web 端需要手动上传的形式转变为可以直接操作本地文件这对于很多小型机构或个人来说已经是非常大的进步因为他们的资料往往还是存在本地电脑里。未来我们也希望能利用更多应用和云盘里的上下文环境这也是我们后续追求的目标。实际上我们已经有同事正在开发支持 OAuth 协议的功能希望实现与其他 SaaS 软件的便捷接入。只要这些 SaaS 软件提供了相应的接口比如通过 MCP或 OAuth 协议都可以进行接入。但坦白说目前像飞书等平台的 MCP 支持还不是特别完善。我们内部目前是通过 API 封装来实现深度接入的。针对企业级场景我们考虑以 ToB 模式应用因为这需要企业管理员提供密钥授权才能调用 API。对于像 Notion、Slack 这种 OAuth 或 MCP 授权已相对成熟的平台我们会尽快接入。我们的终极目标是接入用户所有的 Context。这正是我提到的 Agent Infra 的构建过程不仅是 Agent 应用层的努力更是整个行业甚至线下服务 如麦当劳的点餐 MCP 向 AI 进化的过程。我们将尽可能全、尽可能快地接入这些能力。获取更多 Context 确实面临巨大挑战。目前我们讨论的仍是具备 API 或能下载到本地操作的工具。但在大型企业中数据仓库分布在不同平台且出于隐私安全往往不对外开放。在这种情况下很多在小环境跑得通的数据分析场景在大型组织里根本无法实现因为无法打通各个孤立的平台。这需要所有组织达成共识认同 Agent 的价值并齐心协力开放工具、API 和权限接口。因此Context 的获取分为两步第一步是努力接入已有的 API 或 MCP 开放应用而更难的第二步则是当常用的 SaaS 接入完成后进一步深入将不再仅仅是软件或技术问题而是涉及到组织架构与企业管理的深层挑战。核心在于该公司的基础设施 Infra 是否对 Agent 友好以及组织管理上是否乐于拥抱 “ 由 AI 替代人工节点 ” 的形式。以数据分析为例在我们内部数仓平台与飞书 OAuth 完全打通权限体系和使用流程非常顺畅这使得从 Text-to-SQL 到自动生成报告的闭环效率极高。这种顺畅源于我们数据环境相对纯粹且组织逻辑上更倾向于用 AI 解决问题。将这一套 Agent 经验平移至大公司时会面临显著的现实挑战首先是存量组织与流程的惯性大公司往往已有成熟细致的人工团队和固定流程在资源充足的情况下替代动力可能不如初创公司迫切其次是系统碎片化与权限复杂度大厂内部不同部门、组织间的平台与工具往往高度割裂难以统一接入导致开发适配 Agent 的基础设施周期漫长且权限控制极其复杂极大增加了面向 “ Agent 友好 ” 工具转换的难度。还有一个现实痛点ROI 投入产出比 在大公司维度下当人力资源相对充足时管理层会权衡投入大量研发资源去开发工具接口、梳理复杂的权限边界以及界定责任归属其最终带来的效率提升是否值得这种涉及权限体系重构和责任控制的决策往往很难在短期内快速推进。现在各家厂商都很卷也有很多厂商先行做出了桌面端那么MiniMax如何在当前形势下构建自己的竞争壁垒在去年没有那么多团队做 Agent 的时候可能某些团队还能说自己有一些壁垒但到了今年坦白说没有任何一个团队有壁垒。即使去问大厂做 Agent 的团队或者在 Demo Day 上问那些做 Agent 的团队也没有人能很好地回答这个问题。大家可能会说有某个行业的 know-how、能把垂直领域做深或者有好的客户关系能推到企业里但这些其实都不构成壁垒大家一定会互相 overlap。所以从我们的角度来说只能说我们想得更深做得更新并且把它落地得更快。如果模型都没有壁垒怎么期盼一个 Agent 有壁垒不管是 Anthropic、Gemini 还是 OpenAI他们之间都没有壁垒。Claude 3.0 做得很差但 3.5 专注编程方向做出来了到 4.0 的时候结合 Claude Code 更是惊艳大家本也以为 Gemini 很差结果 Gemini 3 也是专注 Vibe Coding 追了上来起来。目前 OpenAI 的领先优势正被不断蚕食。未来如何发展谁也没法预料。本质上在一个技术的快速上升期除非技术停滞否则没有任何人能够拥有壁垒。唯一的壁垒就是你有没有组织优势有没有相应的人才能保持足够强的认知有没有相应的底层 Infra以及整个团队去执行和实现它的技术能力。这其实就是 Anthropic 和 Gemini 能追上来的原因。比如 Gemini最根本原因的是创始人直接下场写代码如果没有这一点其他努力都是白费心机。Agent 2.0 的下一步是什么我们会有多个主要努力的方向。第一个方向是继续完善桌面端设计、做 Experts涉及 Knowledge 和 Memory 机制的构建也会涉及思考如何通过 Computer Use 接入更多应用。其中关于 Agent 的 “ 记忆 ” 功能正处于规划阶段。展开做 Memory 其实有很多维度是做长期的、全局的记忆还是针对特定对话的、可快速清洗和编辑的短期记忆是侧重于用户的人格画像、专业领域画像还是基于用户工作流中沉淀的 Knowledge、SOP 以及工具使用习惯这背后涉及非常多样的更新和清洗机制。目前我们还在内部权衡各种做的方法和维度等之后正式上线我们会有一个更清晰的形式来向大家说明这套机制具体是如何 Work 的以及它如何帮助大家更高效地使用 Agent 来解决问题。第二个方向是主动性在我们内部实践中Agent 任务的触发可以通过 Trigger 的方式主动运行但现在的产品还是需要你输入一段东西或者至少设一个定时任务它才能执行还没有那么 Active缺乏主动性。所以后续我们也想在接入更多应用后能够基于一些 Webhook 技术去触发 Agent 做更加主动的行为而不是让它只是在界面上等待你给它输入命令。第三个方向是会让它更易用。我们发现这种复杂的 Agent 要在更多场景达到 production ready对用户的友好性非常重要。举个例子之前用户不一定能准确描述需求或者只有一个模糊的想法我们会有一个 clarification 的环节向他澄清意图。以前这个环节只是抛出一个 Markdown 渲染的大长段文字正常用户看到要回答七个问题很难手打大段文字说明需求。但今天我们做了 Generative UI并设计了一些规范让 Agent 在这种情况下出的是表单形式。原来的五六个问题变成了三步表单你只需要点选它就能根据指令做下一步任务不需要再用文字回答。通过这种友好的交互让用户提供更多需求并澄清意图能让我们最后出来的结果更贴合用户的需要。最后是提供更多的 PGC 和 PUGC 的 Expert我们也会进一步鼓励 UGC 的生态。我们终归希望用户来用的时候不是面对一个好像能解决所有问题的通用 Agent而是带着自己明确要解决的问题。长期来看我们未来的目标是做一个像个人助理一样的产品能在生产力场景的 Context 和 Workflow 里为用户交付真正有价值的结果让用户感觉真的多了几个助理和实习生自己不用再去干那些琐碎重复的事情可以专注于更有创意和创造力的事情。我们相信这最终能为用户极大提效让用户离不开它我们也得到相应的回报。在具体技术趋势上无论是做 Desktop 还是接入各种 OAuth我们都希望获得更多 Context 并构建 Memory让用户越用越顺手甚至包括自动提示用户去生成专家这源于 Agent 能够自进化。确实Agent 的下一个重要方向将是自举 Self-bootstrapping 与自我进化。即 Agent 不仅能为用户创造专家还能根据反馈自我改进。我们希望达到的下一步目标是Agent 能够主动观察用户的满意度并在发现表现不佳时主动提议具体的修改点。这代表着 Agent 不再是一个 “ 死 ” 的配置而是一个能与用户不断互动、在工作流中实时进化的实体。以代码编写为例它能自动纠正那些繁琐的格式错误而不需要人类反复叮嘱。目前我们公司内部处理用户反馈和问题的流程已经由 Agent 自己完成并给出建议。所以我们正在推进的下一步就是让 Agent 根据这些反馈自动优化自身。虽然行业内目前仅有一部分人意识到这一点但这将是 Agent 真正深度融入人类生产力的关键。 访谈全文完 撰文流大古 Rick编辑大饼如果您觉得本文还不错欢迎关注差评孵化的商业财经类账号知危 ID:BusinessAlert [外链图片转存中…(img-YCmvQS1Z-1769592898318)]