2026/4/18 3:00:11
网站建设
项目流程
网站链接提交,网站怎么推广出去比较好,研发小程序成本,wordpress会员阅读权限用Open-AutoGLM控制手机#xff0c;全程无需动手点击
1. 让AI替你操作手机#xff1a;AutoGLM-Phone 到底有多聪明#xff1f;
你有没有想过#xff0c;有一天只要说一句“帮我订个火锅”#xff0c;手机就能自动打开美团、搜索附近评分高的店、选好套餐、下单支付——整…用Open-AutoGLM控制手机全程无需动手点击1. 让AI替你操作手机AutoGLM-Phone 到底有多聪明你有没有想过有一天只要说一句“帮我订个火锅”手机就能自动打开美团、搜索附近评分高的店、选好套餐、下单支付——整个过程完全不用你点一下屏幕这听起来像科幻电影里的场景但现在通过Open-AutoGLM这一切已经可以实现。这不是某个大厂的内部黑科技而是由智谱AI开源的一个真实可用的项目AutoGLM-Phone。它是一个基于视觉语言模型的 AI 手机智能助理框架能“看懂”你的手机屏幕、“听懂”你的自然语言指令并通过 ADB 自动完成点击、滑动、输入等操作。简单来说它让手机拥有了“眼睛”和“大脑”眼睛通过截图理解当前界面内容比如按钮文字、布局结构大脑结合多模态大模型分析意图规划下一步动作手通过 ADB 发送模拟操作命令真正实现“全自动”用户只需要一句话“打开小红书搜美食”系统就会自动解析、思考、执行直到任务完成。更贴心的是遇到支付、删除等敏感操作时还会暂停并提示你确认避免误操作。这个项目特别适合两类人普通用户想解放双手让AI帮你处理重复性手机操作开发者/极客希望探索AI Agent在移动端的实际应用边界接下来我会带你从零开始部署这套系统让你也能拥有一个属于自己的“贾维斯”。2. 准备工作软硬件清单与环境搭建2.1 硬件要求你手头的设备够用吗要运行 Open-AutoGLM你需要准备以下几样东西设备要求说明电脑Windows 或 macOS建议16GB内存以上至少50GB硬盘空间用于存放模型手机Android 7.0 及以上系统的真机或模拟器数据线支持数据传输的USB线用于初始连接网络稳定的Wi-Fi环境便于远程调试为什么需要这么高的配置因为核心模型AutoGLM-Phone-9B是一个多模态大模型参数量达到90亿级别加载后会占用大量显存。如果你有NVIDIA显卡建议12GB显存以上推理速度会更快没有也没关系可以用CPU模式运行只是慢一些。2.2 安装Python为项目打基础Open-AutoGLM 是基于 Python 开发的所以第一步是安装合适的 Python 版本。Windows 用户前往 python.org 下载 Python 3.10 或更高版本安装时务必勾选“Add Python to PATH”打开命令提示符输入python --version看到版本号即表示成功Mac 用户使用 Homebrew 更方便brew install python3.10然后验证python3 --version2.3 配置 ADB 工具连接手机的桥梁ADBAndroid Debug Bridge是你电脑和手机之间的通信工具。所有自动化操作都依赖它来发送指令。下载 platform-tools前往 Android 开发者官网 下载对应系统的压缩包。配置环境变量Windows解压文件到某个目录如D:\adb按Win R输入sysdm.cpl→ 高级 → 环境变量在“系统变量”中找到Path点击编辑 → 新建 → 添加你的 ADB 路径打开新终端输入adb version查看是否正常输出版本信息Mac 在终端执行export PATH${PATH}:~/Downloads/platform-tools如果你想永久生效可以把这行加到~/.zshrc文件里。2.4 手机端设置开启开发者权限这是最关键的一步否则电脑无法控制手机。进入手机“设置” → “关于手机”连续点击“版本号”7次直到提示“您已进入开发者模式”返回设置主菜单 → “开发者选项” → 开启“USB调试”可选但推荐开启“无线调试”方便后续WiFi连接完成后当你用数据线连接电脑时手机会弹出“允许USB调试吗”的提示记得点击“允许”。3. 核心部署一步步启动你的AI助手3.1 安装 ADB Keyboard让AI能打字默认情况下AI可以通过ADB模拟点击和滑动但无法输入中文。为此我们需要安装一个特殊的输入法ADB Keyboard。下载 ADBKeyboard.apkGitHub开源项目将手机通过USB连接电脑在命令行执行adb install ADBKeyboard.apk安装成功后进入手机“设置” → “语言与输入法” → “虚拟键盘” → 启用 ADB Keyboard设置为默认输入法这样当AI需要输入文字时就可以通过ADB发送文本指令由 ADB Keyboard 接收并显示在屏幕上。3.2 克隆并安装 Open-AutoGLM 控制端现在我们来下载本地控制代码git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM安装依赖项pip install -r requirements.txt pip install -e .这里的-e .表示以可编辑模式安装方便后续修改源码。3.3 连接设备USB还是WiFi你可以选择两种方式连接手机。USB 连接最稳定用数据线连接手机和电脑执行adb devices输出类似List of devices attached 1234567890ABCDEF device出现device字样说明连接成功。WiFi 远程连接更自由如果不想一直插着线可以用WiFi连接先用USB连接执行adb tcpip 5555断开数据线在手机“无线调试”中查看IP地址如192.168.1.100执行连接adb connect 192.168.1.100:5555之后即使拔掉线也能继续控制手机。4. 启动AI代理让它接管你的手机4.1 如何运行一条命令就够了假设你已经在云服务器上部署好了模型服务监听在http://your-server-ip:8000/v1现在可以在本地运行以下命令python main.py \ --device-id 1234567890ABCDEF \ --base-url http://your-server-ip:8000/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他参数说明--device-id通过adb devices获取的设备ID--base-url模型API地址必须包含/v1最后的字符串你要下达的自然语言指令执行后你会看到类似这样的输出 思考过程: 正在桌面需要找到抖音App图标 执行动作: {action: Launch, app: 抖音}紧接着手机上的抖音会被自动打开搜索指定账号并完成关注操作。4.2 使用 Python API 实现更灵活控制对于开发者来说直接调用 Python API 更加灵活。from phone_agent.adb import ADBConnection from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 连接设备 conn ADBConnection() conn.connect(192.168.1.100:5555) # 配置模型 model_config ModelConfig( base_urlhttp://your-server-ip:8000/v1, model_nameautoglm-phone-9b ) # 创建AI代理 agent PhoneAgent(model_configmodel_config) # 下达任务 result agent.run(打开微信给‘妈妈’发消息我到家了) print(f任务结果: {result})这种方式适合集成到更大的自动化流程中比如定时提醒、批量操作等。4.3 敏感操作保护机制安全第一为了避免AI误操作造成损失系统内置了人工确认机制。例如当你下达“帮我点一份外卖并付款”时AI在即将发起支付前会暂停并打印即将进行支付操作金额38.5元是否继续(y/n)你可以在代码中自定义确认逻辑def confirm_action(message): print(f\n 确认请求: {message}) return input(继续(y/n): ).lower() y agent PhoneAgent( model_configmodel_config, confirmation_callbackconfirm_action )这样一来关键操作始终掌握在你手中。5. 实战案例这些任务都能自动完成5.1 生活服务类任务示例1点外卖python main.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b 打开美团搜索附近的川菜馆选评分最高的那家AI会自动打开美团定位当前位置搜索“川菜”按评分排序展示结果示例2打车回家python main.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b 打开滴滴设置目的地为‘北京市朝阳区国贸大厦’呼叫快车5.2 电商购物类任务示例3淘宝比价python main.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b 打开淘宝搜索蓝牙耳机按销量排序找出价格在200元以内的前三款AI不仅能执行操作还能做简单的信息提取和判断。5.3 社交娱乐类任务示例4小红书种草python main.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b 打开小红书搜索‘北京周末去哪玩’收藏点赞最高的笔记示例5抖音互动python main.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b 打开抖音搜索‘科技测评’关注前三个博主这些任务看似简单但涉及多个APP跳转、UI识别、滚动查找、点击判断等复杂流程传统脚本很难稳定实现。而 AutoGLM 借助视觉理解能力能够像人一样“观察→思考→行动”。6. 常见问题与解决方案6.1 设备连接失败现象adb devices显示unauthorized或无设备解决方法检查手机是否弹出“允许调试”对话框必须手动点击“允许”更换USB线或接口重启 ADB 服务adb kill-server adb start-server6.2 中文输入失效现象AI尝试输入文字但屏幕无反应检查点是否已安装 ADB Keyboard是否已在系统设置中将其设为默认输入法重启手机后再试一次6.3 模型响应缓慢或乱码可能原因云服务器防火墙未开放端口vLLM 启动参数不匹配特别是max-model-len和显存设置网络延迟高建议做法在本地启动模型服务测试--base-url http://localhost:8000/v1查看服务端日志是否有报错确保模型路径正确且文件完整约18GB7. 总结未来已来只是分布不均通过本文的详细指导你应该已经掌握了如何使用Open-AutoGLM实现对手机的全自动控制。这个项目不仅展示了多模态大模型在真实世界中的落地潜力也让我们看到了 AI Agent 的未来方向——不再是被动回答问题而是主动帮你做事。它的价值体现在三个方面效率提升把重复的手动操作交给AI节省时间技术探索为开发者提供了一个研究手机端AI Agent的实验平台隐私保障支持本地部署数据不出设备安全性更高当然目前它还存在一些局限对复杂动态页面的理解仍有误差某些APP的反自动化机制可能导致失败模型资源消耗较大普通设备难以运行但作为一款完全开源的项目它的意义远超当前功能本身。随着社区贡献和迭代优化我们有理由相信未来的手机将真正成为一个“听得懂、看得清、做得对”的智能伙伴。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。