2026/4/18 8:48:07
网站建设
项目流程
有哪些网站可以做任务返现,常平到东莞,陕西交通建设集团西商分公司网站,菏泽机关建设网站手机AI助手来了#xff01;Open-AutoGLM本地部署完整流程
你有没有想过#xff0c;有一天只要说一句话#xff0c;手机就能自动帮你完成一系列操作#xff1f;比如#xff1a;“打开小红书搜美食”#xff0c;然后它自己点开App、输入关键词、滑动浏览结果——全程不需要…手机AI助手来了Open-AutoGLM本地部署完整流程你有没有想过有一天只要说一句话手机就能自动帮你完成一系列操作比如“打开小红书搜美食”然后它自己点开App、输入关键词、滑动浏览结果——全程不需要你动手。这听起来像科幻片的场景现在通过Open-AutoGLM已经可以实现了。这是一个由智谱开源的手机端AI Agent框架名字叫AutoGLM-Phone它结合视觉语言模型和自动化控制技术真正实现了“动口不动手”的智能体验。本文将带你从零开始一步步完成 Open-AutoGLM 的本地部署全过程让你亲手打造属于自己的手机AI助手。无论你是AI爱好者、自动化工具玩家还是想提升效率的普通用户这篇文章都能让你快速上手并看到真实效果。1. 项目简介什么是 Open-AutoGLMOpen-AutoGLM是一个基于 AutoGLM 构建的手机端智能助理框架核心组件是Phone Agent。它的目标很明确让大模型“看懂”手机屏幕并能像人一样去操作设备。整个系统的工作流程如下视觉感知通过ADB截取手机当前屏幕画面。多模态理解把图像 用户指令一起输入给视觉语言模型VLM让它理解“现在屏幕上有什么”以及“你想做什么”。动作规划模型输出下一步该执行的操作比如点击某个坐标、滑动页面或输入文字。自动执行通过 ADB 指令在真机上模拟这些操作实现全自动任务执行。举个例子你说“打开抖音搜索ID为 dycwo11nt61d 的博主并关注他。”AI会自动启动抖音App找到搜索入口并点击输入指定ID进入主页点击“关注”按钮整个过程完全无需人工干预甚至连键盘都不用碰。核心特性一览特性说明多模态理解结合屏幕截图与自然语言指令进行决策自动化操作支持点击、滑动、输入、返回等常见交互安全机制敏感操作如登录、支付支持人工确认接管远程调试可通过WiFi连接设备实现无线远程控制中文优化预训练模型针对中文App界面做了专门优化这个项目最大的亮点在于——你可以完全掌控数据和模型。所有处理都可以在本地完成不依赖云端服务隐私更有保障。2. 准备工作软硬件环境搭建要让 Open-AutoGLM 正常运行我们需要准备三部分本地电脑环境、安卓设备设置、ADB工具配置。2.1 本地电脑环境要求操作系统Windows 或 macOSLinux也可但需自行适配Python版本建议使用 Python 3.10 或更高版本Git工具用于克隆代码仓库网络环境确保能正常访问Hugging Face或ModelScope下载模型验证Python版本python --version推荐使用虚拟环境隔离依赖python -m venv autoglm-env source autoglm-env/bin/activate # Linux/macOS # 或 autoglm-env\Scripts\activate # Windows2.2 安卓设备准备设备类型真实安卓手机或Android模拟器系统版本Android 7.0 及以上存储空间至少预留500MB用于调试和缓存开启开发者模式与USB调试进入手机「设置」→「关于手机」连续点击“版本号”7次直到提示“您已进入开发者模式”返回设置主菜单 →「开发者选项」开启「USB调试」功能注意不同品牌手机路径略有差异请根据机型调整。2.3 安装 ADB Keyboard关键步骤为了让AI能够输入文字我们需要安装一个特殊的输入法ADB Keyboard。作用允许通过ADB命令直接向手机发送文本输入避免手动打字。安装步骤下载 ADB Keyboard APKGitHub开源项目将APK文件传到手机并安装进入「设置」→「语言与输入法」→「默认键盘」切换为 “ADB Keyboard”测试是否生效adb shell input text HelloWorld如果手机当前输入框中出现HelloWorld说明配置成功。3. 部署控制端Open-AutoGLM 本地安装接下来我们正式部署 Open-AutoGLM 的控制端代码。3.1 克隆项目仓库git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM该项目结构清晰主要模块包括Open-AutoGLM/ ├── main.py # 主程序入口 ├── phone_agent/ # 核心逻辑包 │ ├── agent.py # AI代理主类 │ ├── adb/ # ADB连接与设备控制 │ ├── actions/ # 动作执行处理器 │ └── model/ # 模型调用接口 └── requirements.txt # 依赖列表3.2 安装 Python 依赖pip install -r requirements.txt pip install -e .其中-e .表示以可编辑模式安装方便后续修改源码。常见依赖库说明torch,transformers深度学习基础框架fastapi,uvicornAPI服务支持若启用本地模型服务opencv-python图像预处理adbutils轻量级ADB操作库安装完成后可通过以下命令检查是否正常导入from phone_agent import PhoneAgent print(Open-AutoGLM 导入成功)4. 模型部署启动本地推理服务Open-AutoGLM 本身只是一个“指挥官”真正的“大脑”是背后的视觉语言模型。我们需要先启动一个兼容 OpenAI 接口的模型服务。这里推荐使用vLLM来部署模型性能高且支持多模态输入。4.1 下载模型权重官方提供两个版本模型名称适用场景下载地址AutoGLM-Phone-9B中文应用为主Hugging FaceAutoGLM-Phone-9B-Multilingual支持英文及多语言Hugging Face建议选择中文版更适合国内App环境。使用git lfs下载需提前安装 Git LFSgit lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B4.2 使用 vLLM 启动模型服务确保已安装 vLLMpip install vllm启动服务命令python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs {max_pixels:5000000} \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt {image:10} \ --model ./AutoGLM-Phone-9B \ --port 8000参数说明--model模型本地路径--port服务端口默认8000--max-model-len上下文长度影响记忆能力--mm_processor_kwargs控制图像分辨率处理上限启动成功后你会看到类似输出INFO: Started server process [PID] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000此时模型服务已在http://localhost:8000/v1提供 API 接口。5. 连接手机设备ADB 实现远程操控现在我们已经准备好“大脑”模型服务和“指挥系统”Open-AutoGLM代码接下来就是让它们“看到”并“控制”你的手机。5.1 USB 连接方式推荐新手用数据线将手机连接电脑手机弹出“允许USB调试”对话框时点击“允许”在终端运行adb devices输出应类似List of devices attached 1234567890ABCDEF device如果显示unauthorized请重新插拔并确认授权。5.2 WiFi 无线连接适合远程使用优点摆脱数据线束缚可在同一局域网内远程控制。步骤先用USB连接设备开启ADB over TCP/IPadb tcpip 5555断开USB获取手机IP地址可在Wi-Fi设置中查看连接设备adb connect 192.168.1.100:5555再次运行adb devices验证连接状态成功后即可拔掉数据线实现无线操控。6. 启动AI代理让手机自己动起来一切就绪现在让我们下达第一条指令6.1 命令行方式运行任务在项目根目录执行python main.py \ --device-id 1234567890ABCDEF \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ 打开小红书搜索最近热门的咖啡店参数解释--device-id来自adb devices的设备ID--base-url模型服务地址最后的字符串你的自然语言指令运行过程中你会看到实时截图上传日志模型分析结果如识别出“搜索框”、“返回按钮”执行的动作序列点击、输入、滑动几秒钟后你会发现手机自动打开了小红书并完成了搜索操作。6.2 Python API 调用适合集成开发如果你希望将此功能嵌入其他程序可以直接使用 Python APIfrom phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config ModelConfig( base_urlhttp://localhost:8000/v1, model_nameautoglm-phone-9b ) # 创建代理实例 agent PhoneAgent(model_configmodel_config, device_id1234567890ABCDEF) # 执行任务 result agent.run(打开美团订今晚六点的火锅套餐) print(任务完成:, result)这种方式便于批量处理任务或构建GUI界面。7. 实际效果展示与使用建议我亲自测试了多个场景效果令人惊喜指令实际表现“打开微信给张三发消息说‘晚上聚餐吗’”成功找到联系人并发送消息“打开淘宝搜索无线蓝牙耳机按销量排序”自动进入搜索页并切换排序方式“打开抖音刷10秒视频点赞第一个”完成滑动识别点赞图标点击观察总结优势明显对主流App识别准确率高操作流畅平均响应时间 3秒支持复杂链式任务多步操作注意事项屏幕分辨率过高可能导致截图传输慢建议1080p以内某些动态加载界面如直播页可能识别延迟首次运行建议开启日志详细模式--verbose便于调试提升成功率的小技巧保持屏幕亮度充足避免因暗屏导致截图模糊关闭手势导航建议使用经典三键导航元素更易定位避免锁屏任务执行期间不要让手机休眠使用固定布局主题某些定制ROM的图标位置会变动8. 常见问题与排查指南8.1 ADB 连接失败现象adb devices无设备或显示unauthorized解决方法重新开启USB调试清除授权记录adb kill-server adb start-server更换数据线或USB端口8.2 模型无响应或乱码现象AI一直思考但不出结果或输出乱码字符原因排查检查模型路径是否正确确认--max-model-len设置足够大建议≥25480查看GPU显存是否充足9B模型至少需要16GB8.3 输入中文失败现象搜索词无法正确输入解决方案确保 ADB Keyboard 已设为默认输入法测试命令adb shell am broadcast -a ADB_INPUT_TEXT --es msg 你好若无效尝试重启ADB服务8.4 防火墙阻止连接远程部署时当模型服务部署在云服务器上时需开放对应端口# Ubuntu 示例 sudo ufw allow 8000同时确保云平台安全组规则放行该端口。9. 总结迈向真正的手机AI助理时代通过本文的完整流程你应该已经成功部署了 Open-AutoGLM并见证了AI如何接管你的手机完成实际任务。回顾整个过程的关键节点环境准备Python ADB 开发者权限代码部署克隆项目并安装依赖模型启动使用 vLLM 提供 OpenAI 兼容接口设备连接通过USB或WiFi建立ADB通道任务执行一句自然语言触发全自动操作这不仅是一个技术玩具更是未来人机交互方式的一次预演。想象一下在驾驶、做饭或双手不便时只需一句话就能让手机替你完成操作——这才是AI应有的样子。更重要的是这一切都在本地完成没有数据上传没有隐私泄露风险。你拥有对设备的绝对控制权。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。