2026/4/17 14:03:59
网站建设
项目流程
大作设计网站作品,香河县住房和城乡建设部网站,重庆宣传片制作,贵州 网站建设告别手动点击#xff01;用Open-AutoGLM实现手机全自动操作
你有没有过这样的时刻#xff1a; 想查个快递#xff0c;却要解锁手机、点开淘宝、翻到订单页、再找物流信息#xff1b; 想订一杯咖啡#xff0c;得打开美团、搜索店铺、比价、选规格、填地址、确认支付……整…告别手动点击用Open-AutoGLM实现手机全自动操作你有没有过这样的时刻想查个快递却要解锁手机、点开淘宝、翻到订单页、再找物流信息想订一杯咖啡得打开美团、搜索店铺、比价、选规格、填地址、确认支付……整个过程手指划了七八次眼睛盯了半分钟。更别说那些重复性操作——每天固定时间刷小红书、每周五晚自动整理微信收藏、帮长辈远程设置健康码……这些事本不该消耗你的时间和注意力。Open-AutoGLM 改变了这一切。它不是又一个语音助手也不是一段固定脚本而是一个真正“看得见、想得清、动得了”的手机AI代理。你只需说一句自然语言指令比如“帮我把微信里昨天收到的那张发票截图发到钉钉财务群”它就能理解当前界面、定位控件、截图识别、切换App、粘贴发送——全程无需你碰一下屏幕。本文将带你从零开始用一台普通电脑 一部安卓手机不依赖高端显卡不折腾复杂部署快速上手这个由智谱开源、已在真实场景中稳定运行的Phone Agent框架。你会看到它如何把“语言”变成“动作”把“想法”落地为“结果”。1. 它到底是什么不是自动化脚本而是会思考的手机助手1.1 和传统自动化工具的本质区别很多人第一反应是“这不就是Auto.js或Tasker吗”不完全是。传统安卓自动化工具依赖预设规则你必须提前写好“点击坐标(320,650)”“等待3秒后滑动”“输入固定文字”。一旦App更新界面、换个分辨率、换台手机整套流程就可能失效。而Open-AutoGLM的核心突破在于多模态感知 推理式决策看得到每一步操作前它都会对手机屏幕实时截图并用视觉语言模型VLM分析画面——识别出“微信图标在左上角”“‘文件传输助手’在第二行”“‘发送’按钮带蓝色边框”想得清它把截图你的指令一起输入大模型让AI理解任务目标如“发发票”、当前状态如“正在微信聊天页”、可选动作如“长按图片→转发→选择钉钉”动得准基于推理结果生成精确的ADB指令如adb shell input tap 520 980并自动执行还能处理异常如弹窗拦截、加载等待、验证码跳转。这就像给手机配了一个“数字分身”它不靠死记硬背而是像人一样观察、理解、规划、行动。1.2 框架组成三块积木拼出完整能力Open-AutoGLM并非单个程序而是一套协同工作的系统包含三个关键模块模块职责技术要点小白理解视觉感知层截图 理解界面使用轻量化VLM解析UI元素、文本、图标位置“眼睛”——能看清屏幕上每个按钮在哪、写着什么任务规划层解析指令 生成操作序列基于autoglm-phone模型输出结构化动作链点击/滑动/输入/返回“大脑”——知道下一步该点哪、为什么点、点完干什么执行控制层发送ADB指令 设备交互通过ADB连接手机调用input tap、input swipe、adb shell am start等命令“手”——真正替你按下、滑动、输入、打开App这三层解耦设计意味着你可以灵活替换任一模块比如用本地部署的vLLM服务替代智谱API或接入自己的OCR引擎提升文字识别精度。2. 零门槛上手Windows电脑 安卓手机30分钟完成配置2.1 硬件与环境准备只要满足基础条件不需要RTX 4090也不需要Linux服务器。你只需具备以下四项一台安卓手机Android 7.0及以上实测vivo S20、小米13、三星S23均兼容一台Windows或macOS电脑用于运行控制端Python 3.10一根USB数据线或同一WiFi网络建立电脑与手机通信通道一个智谱BigModel账号获取免费API额度新用户赠送充足tokens注意iOS设备暂不支持。因Apple未开放类似ADB的底层调试接口目前仅限安卓生态。2.2 手机端设置三步开启“被操控”权限这是最关键的前置步骤但操作简单5分钟内可完成开启开发者模式进入手机「设置 → 关于手机 → 版本号」连续点击7次直到弹出提示“您已处于开发者模式”。启用USB调试返回「设置 → 系统 → 开发者选项」找到「USB调试」并开启。部分机型如华为、OPPO还需同时开启「USB调试安全设置」。安装ADB Keyboard解决输入法冲突下载ADBKeyboard.apk用命令安装adb install -r ADBKeyboard.apk安装后进入「设置 → 语言与输入法 → 当前输入法」将默认输入法切换为“ADB Keyboard”。这一步至关重要——它确保AI执行“输入文字”指令时不会被系统输入法弹窗打断。2.3 电脑端配置ADB环境与项目部署ADB工具安装Windows示例下载Android Platform Tools解压到任意路径如C:\platform-tools添加至系统PATHWin R→ 输入sysdm.cpl→ 「高级」→ 「环境变量」→ 在「系统变量」中找到Path → 「编辑」→ 「新建」→ 粘贴解压路径验证安装打开命令提示符输入adb version应显示版本号如Android Debug Bridge version 1.0.41克隆与安装Open-AutoGLM# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境推荐避免依赖冲突 python -m venv venv venv\Scripts\activate # Windows # source venv/bin/activate # macOS/Linux # 安装依赖 pip install -r requirements.txt pip install -e .2.4 连接手机USB直连 or WiFi无线两种方式任选USB连接推荐新手首选用数据线连接手机与电脑在命令行运行adb devices若输出类似ZY2234567890 device说明连接成功。device前的字符串即为你的设备ID。WiFi无线连接适合远程调试需先用USB连接一次执行adb tcpip 5555 # 切换ADB为TCP模式 adb disconnect # 断开USB adb connect 192.168.1.100:5555 # 替换为手机在同一WiFi下的IP获取手机IP进入「设置 → WLAN → 当前网络 → IP地址」。若连接失败检查手机与电脑是否在同一局域网。3. 让AI开始工作一条指令全自动执行3.1 最简启动方式直接运行自然语言指令配置完成后你只需一条命令即可让AI接管手机python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here \ 打开高德地图搜索‘南京南站’查看实时公交到站信息参数说明--base-url智谱API入口地址固定--model指定使用手机端专用模型必须为autoglm-phone--apikey在智谱官网注册后在「API密钥管理」中创建并复制最后引号内的字符串你的自然语言指令越具体越好建议包含App名、关键词、操作目标成功标志终端输出类似[INFO] Action: CLICK on (x420, y180)手机屏幕同步执行点击最终返回任务结果如“已为您查到3条公交线路最近一辆12分钟后到达”。3.2 交互模式像对话一样下达连续任务不想每次敲命令启用交互模式进入“人机协作”状态python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here运行后你会看到提示Enter your task:此时输入任意指令例如“打开小红书搜索‘露营装备推荐’保存前三篇笔记的封面图到相册”AI将自动分步执行启动App → 点击搜索框 → 输入文字 → 点击搜索 → 滑动浏览 → 长按图片 → 点击“保存” → 返回确认。整个过程无需人工干预。小技巧在交互模式下你可以说“上一步重试”“跳过当前步骤”“暂停我来手动点一下”系统支持有限度的人工接管尤其适用于登录、短信验证等敏感环节。3.3 实测案例从指令到结果的完整闭环我们以一个真实高频需求为例——“帮我生成一份南京两日游攻略并发到微信家庭群”指令输入“打开小红书搜索‘南京旅游攻略’找到一篇点赞超5000的笔记提取其中的景点、美食、住宿信息整理成清晰列表然后用微信发给‘家人’群”AI执行过程终端日志节选[INFO] Capturing screenshot... [INFO] Sending image instruction to autoglm-phone... [INFO] Planning action: OPEN_APP(com.xiaohongshu) [INFO] Action: CLICK on (x210, y1200) # 点击小红书图标 [INFO] Waiting for app launch... [INFO] Action: CLICK on (x580, y150) # 点击搜索框 [INFO] Action: INPUT_TEXT(南京旅游攻略) [INFO] Action: CLICK on (x1020, y150) # 点击搜索按钮 [INFO] Action: SCROLL_DOWN 3 times # 滑动查找高赞笔记 [INFO] Action: CLICK on (x320, y850) # 点击目标笔记 [INFO] Capturing full-page screenshot... [INFO] Extracting text via OCR... [INFO] Structuring data: [景点: 中华门, 美食: 李百蟹, 住宿: 玄武湖附近] [INFO] Opening WeChat... [INFO] Searching chat 家人... [INFO] Pasting formatted text... [INFO] Task completed successfully.最终效果微信家庭群中收到格式工整的攻略含emoji图标、分段标题、重点标注完全达到人工整理水平。4. 稳定运行的关键避坑指南与优化建议4.1 常见问题速查表问题现象可能原因解决方案adb devices显示unauthorized手机未授权电脑调试手机弹出“允许USB调试”提示勾选“始终允许”点击确定终端报错UnicodeDecodeError: gbk codec cant decode...Windows默认用GBK读取UTF-8文件编辑scripts/check_deployment_cn.py在open()函数中添加encodingutf-8参数AI反复点击同一位置无法进入下一步屏幕分辨率适配问题在main.py中添加参数--scale-factor 1.0根据手机DPI调整常见值0.8~1.2执行输入指令时文字未上屏ADB Keyboard未设为默认输入法进入手机「设置 → 语言与输入法」确认“ADB Keyboard”已启用并设为默认API调用返回429 Too Many Requests智谱API请求超频在指令间添加time.sleep(2)或升级API套餐4.2 提升成功率的3个实用技巧指令描述要“具象化”❌ 差“查天气”好“打开墨迹天气App定位到南京市秦淮区查看今天下午2点的温度和空气质量指数”理由明确App名、地理位置、时间点减少AI歧义判断复杂任务拆解为多轮指令不要试图用一句话完成所有操作。例如第一轮“打开小红书搜索‘iPhone15评测’保存前三篇笔记标题”第二轮“打开微信把刚才保存的标题发给‘数码群’”理由降低单次推理复杂度提高每步准确率善用“确认机制”应对不确定性在敏感操作前AI会主动暂停并询问“检测到登录弹窗是否需要我输入手机号Y/N”此时输入Y它会继续输入N则交由你手动处理。这是框架内置的安全设计无需额外配置。5. 超越Demo这些场景它已经能稳定交付Open-AutoGLM的价值远不止于“炫技”。我们在实际测试中验证了多个生产力场景效果超出预期5.1 个人效率类信息聚合“汇总今日微信未读公众号文章标题按阅读量排序发到印象笔记”→ 自动遍历订阅号列表截图识别标题OCR提取文字整理排序调用印象笔记API保存跨App搬运“把知乎回答里的代码块复制到Typora加上注释‘来自知乎用户xxx’”→ 精准定位代码区域长按复制启动Typora粘贴并插入前缀5.2 家庭关怀类远程协助“帮爸妈把微信步数同步到华为健康App”→ 启动微信运动 → 点击“邀请好友” → 截图识别二维码 → 启动华为健康 → 扫描 → 完成绑定智能提醒“每天上午9点检查支付宝‘市民中心’里的医保余额低于500元时微信通知我”→ 定时唤醒 → 自动登录 → 截图识别数字 → OCR提取 → 判断阈值 → 触发微信消息5.3 轻量开发类UI回归测试“依次打开App首页、商品页、购物车页截图保存到本地文件夹”→ 自动生成操作流批量截图命名含页面标识供设计师比对竞品功能扫描“对比美团、大众点评、抖音本地生活搜索‘北京火锅’记录各平台首屏展示的Top3商家名称”→ 并行启动三款App分别执行搜索OCR提取结果结构化输出对比表这些不是理论设想而是我们用vivo S20Windows 11实测通过的真实用例。平均单任务耗时12~45秒成功率在WiFi稳定环境下达92%USB直连可达96%。6. 总结它不是未来科技而是今天就能用上的生产力杠杆回看开头那个“点外卖”的例子——Open-AutoGLM真正解决的从来不是“少点几次屏幕”这个表层问题。它化解的是注意力碎片化与操作路径冗长带来的隐性成本每一次手动切换App、每一次等待页面加载、每一次在密密麻麻的菜单中寻找目标都在悄悄消耗你的认知带宽。而它提供的是一种新的交互范式用意图代替操作用语言代替路径用结果代替过程。你不需要记住“美团的外卖入口在首页右下角第三个图标”只需要说“点一杯瑞幸拿铁”你不必担心“微信收藏里的PDF怎么导出”只需说“把上周收藏的所有PDF发到邮箱”甚至你可以对它说“帮我看看老板昨天发的会议纪要里哪些事项分配给了我”它就会自动完成全文检索、高亮标记、截图归档。这不是科幻这是智谱用开源精神把前沿的Phone Agent技术变成了你电脑里一个可执行的main.py。没有黑箱没有云服务绑定代码透明逻辑可追溯扩展接口清晰。如果你也厌倦了在App丛林中手动跋涉不妨今晚就花30分钟搭起这条通往“全自动手机生活”的第一座桥。真正的效率革命往往始于一句最朴素的指令。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。