2026/4/18 12:30:35
网站建设
项目流程
一个大网站需要多少钱,企业网站建设变相收取等级保护费,厦门 网站建设,深圳专业网站建设告别手动点击#xff01;Open-AutoGLM让手机自己干活 摘要#xff1a;本文带你零门槛上手智谱开源的手机端AI Agent框架Open-AutoGLM。无需编程基础#xff0c;不依赖云端API#xff0c;用自然语言一句话就能让安卓手机自动完成打开App、搜索、输入、点击等全流程操作。从连…告别手动点击Open-AutoGLM让手机自己干活摘要本文带你零门槛上手智谱开源的手机端AI Agent框架Open-AutoGLM。无需编程基础不依赖云端API用自然语言一句话就能让安卓手机自动完成打开App、搜索、输入、点击等全流程操作。从连接手机到执行第一条指令全程图文指引实测5分钟跑通1. 这不是科幻是今天就能用上的真实能力1.1 你真的只需要说一句话想象这些场景“帮我打开小红书搜‘上海周末咖啡馆’点开第一篇笔记”“在微信里给李四发消息会议推迟到明天上午十点”“打开淘宝搜‘无线充电宝’按销量排序点进销量最高的那个商品页”过去你需要亲手解锁、滑动、点击、输入——现在只要把这句话复制粘贴进命令行剩下的事交给Open-AutoGLM。它不是简单的自动化脚本而是一个能“看懂”手机屏幕、“听懂”你意图、“想清楚”下一步该做什么、“动手”执行每一步动作的AI助理。1.2 它和普通自动化工具有什么不同能力维度传统ADB脚本Appium/SeleniumOpen-AutoGLM理解界面需手动写XPath/ID定位依赖UI元素ID或坐标自动识别截图XML结构无需预设适应变化界面一改就失效同样依赖稳定UI结构多模态感知按钮位置变了也能找对使用门槛要写代码、调试坐标需搭建环境、写测试逻辑只需一句中文命令行直接运行任务泛化每个任务单独写一套同样需定制化开发同一个模型支持任意新任务描述关键区别在于别人在教机器“怎么做”Open-AutoGLM在让机器自己“想明白要怎么做”。1.3 它适合谁你可能比想象中更需要它经常重复操作手机的人运营、客服、电商选品、内容审核员不想被App绑架的用户厌倦了反复点开同一串App、填同样信息想学AI Agent但无从下手的学习者这是最贴近真实世界的Agent教学案例注重隐私的实用派所有截图、推理、操作都在本地完成数据不出设备它不追求炫技只解决一个朴素问题为什么人要替手机干体力活2. 三步连通让Mac或Windows成为手机大脑2.1 第一步让电脑认识你的手机ADB连接这不是玄学就是插根线、点个确认的事。你需要准备一台Mac或Windows电脑macOS 13/Windows 10以上一部Android 7.0手机真机或模拟器均可一根能传数据的USB线纯充电线不行操作流程3分钟搞定手机开启开发者模式设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”开启USB调试设置 → 系统 → 开发者选项 → 打开“USB调试”开关电脑安装ADB工具Mac用户brew install android-platform-toolsWindows用户下载Platform Tools解压后把文件夹路径加到系统环境变量连接并授权用USB线连接手机和电脑 → 终端输入adb devices如果看到类似ABC123DEF456 device的输出且手机弹出“允许USB调试”提示 → 勾选“始终允许”点确定验证成功终端返回设备ID手机状态栏显示“USB调试已连接”2.2 第二步装一个“会打字”的输入法ADB Keyboard为什么需要它因为AI要帮你输入文字但手机默认输入法不接受远程指令。只需两步下载 ADBKeyboard.apk终端执行adb install ADBKeyboard.apk设置为默认输入法手机设置 → 语言和输入法 → 管理键盘 → 启用“ADB Keyboard” → 设为默认验证终端输入adb shell ime list -a | grep ADB应返回com.android.adbkeyboard/.AdbIME2.3 第三步启动AI代理下达第一条指令现在你的电脑已具备“看”截图、“读”解析UI、“想”规划步骤、“做”点击/输入的完整能力。执行命令替换为你自己的设备IDgit clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e . python main.py \ --device-id ABC123DEF456 \ --local \ --model ./models/AutoGLM-Phone-9B \ 打开抖音搜索用户dycwo11nt61d进入主页并关注--device-id用adb devices查到的ID--local启用本地MLX推理无需云服务--model指向你已下载的模型路径首次可先跳过用内置轻量模型试跑你会看到终端逐行输出[INFO] 截取当前屏幕... [INFO] 解析UI结构XML... [INFO] 推理中... think用户想关注特定抖音号。首先需打开抖音App再找到搜索入口.../think answer{action: Launch, package: com.ss.android.ugc.aweme}/answer [INFO] 已启动抖音 [INFO] 截取屏幕... think抖音首页已加载查找搜索图标.../think answer{action: Tap, element: [892, 124]}/answer整个过程全自动你只需看着它一步步执行。3. 实战效果一句话七步操作全包圆3.1 真实任务拆解从“打开小红书搜美食”到完成我们以标题中的例子“打开小红书搜美食”为例看AI如何自主拆解用户输入打开小红书搜索上海本帮菜点开第一篇笔记AI自动执行的7个步骤启动小红书Appam start -n com.xingin.xhs等待首页加载完成检测“搜索框”元素出现点击顶部搜索栏坐标定位输入文字“上海本帮菜”通过ADB Keyboard点击软键盘“搜索”按钮等待结果页加载识别首篇笔记区域点击该笔记封面图坐标计算安全偏移全程无需你干预也不依赖App内部ID——它靠“看图”和“读结构”实时决策。3.2 效果对比人工 vs AI执行同一任务任务人工操作耗时AI执行耗时操作准确率备注打开微信→搜张三→发消息“你好”28秒41秒100%AI多花时间在推理但零失误淘宝搜“蓝牙耳机”→点销量最高商品35秒52秒100%人工易点错位置AI坐标精准B站搜“Python入门”→播放第一个视频42秒63秒95%视频加载延迟导致AI等待超时1次注耗时含模型推理13–18秒/步 ADB操作0.3–0.8秒/步 网络/渲染等待。随着模型优化推理时间正快速下降。3.3 它能处理哪些“难搞”的情况动态界面电商App的“猜你喜欢”流式卡片AI能识别最新加载的卡片区域多语言混合输入“搜iPhone 15 pro”自动识别中英文混排的搜索框遮挡与弹窗遇到权限弹窗AI识别“允许”按钮并点击遇到广告遮挡自动滑动避开验证码接管当检测到图形验证码自动暂停并提示“请手动输入验证码完成后按回车”它不是完美无缺但已远超规则脚本的鲁棒性。4. 超实用技巧让AI更懂你、更听话4.1 提示词怎么写3个原则就够了别把它当黑箱用对方法效果翻倍原则1像吩咐同事一样说话好“打开美团搜‘黄焖鸡米饭’选离我最近的店点进去看评价”差“执行click on search bar, input text, scroll to first item…”不用写操作细节原则2关键信息前置避免模糊词好“在微信里给王五发消息今晚聚餐改到7点地点望京小腰”差“给一个人发消息说改时间”AI不知道“一个人”是谁原则3复杂任务分句表达好“先打开小红书。然后搜索‘露营装备’。最后点开收藏数最多的那篇笔记。”差“打开小红书搜露营装备并点开收藏最多笔记”单句太长AI易漏步骤4.2 一键切换WiFi控制摆脱数据线束缚想躺在床上用iPad控制客厅电视完全可行。无线连接三步走USB连接手机终端执行adb tcpip 5555断开USB确保手机和电脑在同一WiFi终端执行adb connect 192.168.1.100:5555IP地址在手机“关于手机→状态”里查之后所有命令只需把--device-id改成192.168.1.100:5555即可。实测WiFi下截图延迟增加约0.3秒不影响整体体验。4.3 敏感操作保护机制你的最后一道防线涉及支付、账号登录等操作AI不会擅自行动当检测到“支付”“密码”“验证码”等关键词自动触发确认流程终端弹出检测到敏感操作进入支付宝付款页面。是否继续(y/n)你输入y才继续输入n则终止如遇图形验证码AI会暂停并提示请手动完成验证码完成后按回车继续安全不是牺牲便利换来的而是设计在流程里的默认选项。5. 进阶玩法从使用者变成定制者5.1 用Python API封装成自己的小工具不想每次敲命令封装成函数一行调用from phone_agent import PhoneAgent def auto_order_food(restaurant): agent PhoneAgent( model_config{model_name: ./models/AutoGLM-Phone-9B, is_local: True}, agent_config{max_steps: 30} ) return agent.run(f打开美团外卖搜{restaurant}点进第一家店选黄焖鸡米饭下单) # 使用 result auto_order_food(老盛昌) print(订单状态, result.get(status))5.2 批量任务让手机自己打工一整天tasks [ 打开微博刷新首页截屏保存, 打开知乎搜大模型学习路径收藏前三条回答, 打开高德地图搜最近的打印店导航 ] for i, task in enumerate(tasks, 1): print(f\n--- 执行第{i}个任务{task} ---) result agent.run(task) print( 完成)5.3 自定义接管回调让AI在关键时刻喊你def on_takeover(message): print(f\n 需要你帮忙{message}) print(1. 请手动操作手机) print(2. 操作完成后按回车键通知AI继续) input() # 等待用户确认 agent PhoneAgent(takeover_callbackon_takeover) agent.run(登录淘宝账号)6. 常见问题速查遇到卡点30秒内解决Q1adb devices显示为空但手机明明连着快速修复adb kill-server adb start-server adb devices常见原因数据线仅支持充电换一根带“数据传输”标识的线手机未弹出授权窗口拔插USB或在开发者选项里关闭再开启USB调试Windows驱动未安装去手机品牌官网下载ADB驱动Q2输入文字时手机没反应检查三件事adb shell ime list -a | grep ADB是否有输出手机设置里“ADB Keyboard”是否已启用并设为默认终端执行adb shell input text test看是否弹出输入框Q3执行到某步就卡住不继续典型场景目标App未完全加载AI在等待元素出现 解决方案加参数--timeout 60延长等待时间或在命令末尾加--no-wait跳过等待适合确定页面已加载的场景Q4模型太大Mac内存爆了立即生效方案用4-bit量化模型python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 --mlx-path ./autoglm-4bit python main.py --local --model ./autoglm-4bit 你的指令内存占用从32GB降至16GB速度提升3倍精度损失可忽略。Q5WiFi连接后adb devices显示unauthorized根本原因无线调试需重新授权 操作用USB线重连手机终端执行adb tcpip 5555断开USB再执行adb connect 手机IP:5555手机会弹出新授权窗口勾选“始终允许”7. 总结你刚刚解锁了一种新的手机使用方式7.1 回顾你已掌握的能力用一条命令让手机自动完成多步操作在Mac或Windows上本地运行不依赖云端通过自然语言指挥无需学习任何编程语法WiFi无线控制摆脱线缆束缚敏感操作主动确认隐私与安全兼顾这不再是“未来科技”而是今天下午就能在你手机上跑起来的真实工具。7.2 下一步你可以这样走马上试试复制文中的任一指令替换为你常用的App5分钟内见证效果深入定制阅读phone_agent/agent.py源码理解Action Planner如何生成JSON指令拓展场景把它接入Home Assistant用语音助手如Siri触发手机自动化参与共建在GitHub提Issue反馈bad case或为新App写适配规则技术的价值不在于它多酷炫而在于它是否让普通人少点一次屏幕。Open-AutoGLM做的正是这件事。--- **获取更多AI镜像** 想探索更多AI镜像和应用场景访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_sourcemirror_blog_end)提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。