2026/4/18 15:09:10
网站建设
项目流程
湖北黄石市黄石市建设材料价格信息在哪个网站查询,建设网站的题目,新闻热点事件素材,黄岐网站建设Open-AutoGLM深度体验#xff1a;视觉理解能力实测
1. 引言#xff1a;从指令到执行的智能闭环
随着多模态大模型的发展#xff0c;AI 正逐步突破“只能对话”的局限#xff0c;向“能看会动”演进。Open-AutoGLM 是智谱 AI 开源的一款基于视觉语言模型#xff08;VLM视觉理解能力实测1. 引言从指令到执行的智能闭环随着多模态大模型的发展AI 正逐步突破“只能对话”的局限向“能看会动”演进。Open-AutoGLM 是智谱 AI 开源的一款基于视觉语言模型VLM的手机端 AI Agent 框架其核心目标是让 AI 能够像人类一样观察屏幕、理解界面、规划动作并自动执行操作。用户只需输入一句自然语言指令如“打开小红书搜索美食”系统即可通过 ADB 自动完成一系列点击、滑动和输入操作实现真正意义上的“动口不动手”。这一能力的背后依赖于三大关键技术视觉理解通过多模态模型解析手机截图识别当前界面元素意图与规划将用户指令转化为可执行的任务流自动化控制利用 ADB 实现对设备的操作模拟本文将围绕 Open-AutoGLM 的视觉理解能力进行深度实测重点评估其在复杂 UI 场景下的感知准确性、语义理解能力和边界情况处理表现。2. 技术架构与工作流程解析2.1 系统整体架构Open-AutoGLM 构建了一个完整的“感知—决策—执行”闭环系统主要由以下模块组成ADB 控制层负责设备连接、截图获取、触控指令下发视觉语言模型VLM接收屏幕图像 用户指令输出结构化动作任务规划引擎维护状态机判断是否需要继续交互或终止安全确认机制对支付、删除等敏感操作进行人工干预提示整个流程如下用户指令 → 截图捕获 → 图文输入模型 → 动作预测 → ADB 执行 → 新界面 → 循环直至完成2.2 视觉理解的核心机制模型采用类似 Qwen-VL 或 LLaVA 的架构设计具备强大的图文对齐能力。其输入为图像输入当前手机屏幕截图通常为 720×1440 左右文本输入用户指令 历史上下文 系统 prompt输出为 JSON 格式的动作指令例如{action: Click, element: 搜索框, text: 美食}关键在于模型不仅要“看到”按钮的位置还要“理解”它的功能并结合上下文做出合理决策。3. 视觉理解能力实测方案为了全面评估 Open-AutoGLM 的视觉理解性能我们设计了五个典型测试场景覆盖不同应用类型和界面复杂度。3.1 测试环境配置项目配置设备Google Pixel 6 (Android 13)运行方式本地部署vLLM AutoGLM-Phone-9B模型路径zai-org/AutoGLM-Phone-9B推理框架vLLM 0.4.2显卡NVIDIA RTX 3090 (24GB)Python 版本3.10.12所有测试均使用 WiFi ADB 连接确保无线远程控制稳定性。3.2 测试用例设计编号应用指令关键挑战T1小红书“打开小红书搜索‘露营装备推荐’”文本输入 多标签页切换T2美团“找一家评分4.8以上的人均50元以下的川菜馆”数值条件理解 列表筛选T3微信“给妈妈发消息我到家了”联系人识别 输入法切换T4淘宝“搜索蓝牙耳机按销量排序”多步操作 排序控件定位T5设置“关闭Wi-Fi和蓝牙”系统级设置入口识别每个测试重复运行 3 次记录成功率、错误类型及耗时。4. 实测结果分析4.1 各场景执行情况汇总测试编号成功率平均步数主要问题T1 小红书搜索3/3 ✅4无T2 美团找餐厅2/3 ⚠️6第一次误判价格范围T3 微信发消息3/3 ✅3无T4 淘宝排序2/3 ⚠️5一次未识别“销量”按钮T5 关闭设置3/3 ✅2无总体成功率为87%表明模型在大多数常见任务中已具备较高可用性。4.2 典型成功案例T1 小红书搜索用户指令“打开小红书搜索‘露营装备推荐’”模型思考过程输出 当前界面桌面 需要启动小红书 App 执行动作: {action: Launch, app: 小红书}进入首页后 当前界面小红书主页底部有「首页」「消息」「发布」「我」四个标签 顶部有搜索框提示“搜索内容与用户” 执行动作: {action: Click, element: 搜索框}随后 执行动作: {action: Type, text: 露营装备推荐} 执行动作: {action: Click, element: 搜索}全程无需人工干预准确率高响应流畅。4.3 边界案例分析T2 美团数值理解偏差首次失败原因分析用户指令包含两个数值条件“评分4.8以上”、“人均50元以下”。但模型第一次执行时仅关注“川菜馆”关键词忽略了价格过滤条件在列表页直接选择第一家店铺打开。根本原因推测模型对复合数值条件的权重分配不足当前界面未显示人均消费信息导致无法有效筛选缺乏“先打开筛选面板”的推理链后续改进策略可通过优化 system prompt 提升模型对数值条件的重视程度例如添加“当指令中出现价格、评分、距离等数值条件时请优先调出筛选菜单进行设置。”第二次和第三次测试中加入该提示后任务顺利完成。4.4 可视化理解能力评估我们提取了几次关键操作中的截图与模型注意力热力图通过 Grad-CAM 方法生成发现模型具备较强的区域定位能力。示例淘宝“销量排序”按钮识别真实位置位于商品列表上方“综合”右侧的“销量”文字按钮模型注意力集中区域准确聚焦于该按钮及其周边控件误识别情况有一次将“筛选”按钮误认为“销量”可能因两者样式相近这说明模型不仅依赖文本标签也学习到了一定的 UI 布局规律。5. 视觉理解的关键优势与局限5.1 核心优势总结✅ 多模态语义对齐能力强模型能够将“搜索框”这样的抽象概念与具体 UI 元素精准匹配即使图标无文字标注也能识别。✅ 上下文记忆能力良好在跨页面操作中如从小红书主页跳转至搜索结果页模型能记住原始任务目标不会中途偏离。✅ 支持中文输入与复杂表达无论是“帮我订个火锅”还是“找离我最近的充电桩”都能被正确解析为可执行动作。5.2 当前存在的局限性❌ 对动态加载内容响应滞后当页面存在懒加载或无限滚动时模型可能在内容未完全展示前就做出判断导致点击空白区域。❌ 小字体或低对比度文本识别困难部分应用如某些银行App使用灰色细体字提示信息模型容易忽略这些关键字段。❌ 多同名元素区分能力弱若页面出现多个“立即购买”按钮模型难以判断应点击哪一个需依赖额外上下文。❌ 不支持非标准控件对于自定义绘制组件如游戏内UI、WebView中的H5按钮由于缺乏语义标签识别成功率显著下降。6. 工程优化建议与实践技巧6.1 提升视觉理解稳定性的方法方法一增强 system prompt 引导修改phone_agent/config/prompts.py中的系统提示词强化对关键条件的关注SYSTEM_PROMPT 你是一个手机操作专家请严格按照以下原则行动 1. 如果指令中包含价格、评分、时间等数值条件必须先找到并设置筛选项 2. 在点击前确认目标元素可见且可交互 3. 若连续两次操作失败尝试返回上一级重新开始 方法二增加截图预处理在传入模型前可对截图进行增强处理调整亮度与对比度提升可读性添加边框标注突出按钮区域OCR 辅助提取文本作为额外输入特征方法三引入动作验证机制每次执行后增加“预期结果验证”步骤例如if action Launch and app 小红书: expected_elements [搜索框, 首页, 消息] if not check_elements_on_screen(expected_elements): retry()6.2 敏感操作的安全控制尽管 Open-AutoGLM 内置了确认机制但在实际使用中仍建议启用自定义回调函数def safety_check(message: str) - bool: sensitive_keywords [支付, 转账, 删除, 注销] if any(kw in message for kw in sensitive_keywords): print(f\n⚠️ 危险操作预警{message}) return input(继续执行(y/n): ).lower() y return True agent PhoneAgent( model_configmodel_config, confirmation_callbacksafety_check )这样可以在关键时刻阻止潜在风险行为。7. 总结Open-AutoGLM 展示了当前开源多模态 Agent 在移动端自动化领域的前沿水平。通过对视觉理解能力的实测我们可以得出以下结论在主流应用中视觉理解准确率较高能够可靠完成搜索、导航、发送消息等常见任务对复合条件的理解仍有提升空间特别是在涉及数值筛选或多选项判断时可能出现偏差整体架构设计合理形成了“观察→思考→执行”的闭环逻辑具备良好的扩展性和安全性工程落地可行性强配合合理的 prompt 工程和异常处理机制已可用于轻量级自动化场景。未来随着模型迭代和训练数据丰富预计其在复杂应用如金融、政务类 App中的表现将进一步提升。同时图形化配置界面和更完善的调试工具也将降低开发者使用门槛。Open-AutoGLM 不仅是一个技术demo更是通向“通用手机助理”的重要一步。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。