网站建立初步教案论文目录链接怎么做
2026/4/18 12:10:28 网站建设 项目流程
网站建立初步教案,论文目录链接怎么做,网页模板免费网址,网站内页产品做跳转亲自动手试了Open-AutoGLM#xff0c;结果出乎意料 1. 这不是另一个“手机遥控器”#xff0c;而是一个会自己看、想、做的AI助手 你有没有过这样的时刻#xff1a; 想批量给十个抖音博主点赞#xff0c;手指点到发麻#xff1b; 外卖下单要反复切换APP、填地址、选口味…亲自动手试了Open-AutoGLM结果出乎意料1. 这不是另一个“手机遥控器”而是一个会自己看、想、做的AI助手你有没有过这样的时刻想批量给十个抖音博主点赞手指点到发麻外卖下单要反复切换APP、填地址、选口味三分钟才完成一单教爸妈用新APP语音讲了五遍他们还是找不到“我的订单”在哪。以前我们说“AI能写诗能画画”但很少有人认真想过——AI能不能真正用手机不是模拟点击不是预设脚本而是像人一样先看清屏幕上有什么再理解当前在哪个页面接着想清楚下一步该点哪、输什么、滑哪里最后动手执行。Open-AutoGLM 就是冲着这个目标来的。它不是把大模型塞进手机跑那根本跑不动而是用一套精巧的分工机制手机端只负责“看”和“做”——通过ADB实时截屏、执行点击/滑动/输入云端负责“想”和“判”——用9B视觉语言模型理解界面语义、规划操作路径、生成可执行动作序列中间靠一个轻量级代理桥接把自然语言指令翻译成像素坐标、控件ID、文本输入流。我原以为这又是个概念验证项目跑通demo就不错了。结果当我第一次对它说“打开小红书搜‘上海咖啡馆’点开第一个笔记截图保存”它真的——没卡顿、没乱点、没输错字、没点错返回键——完整走完了整条链路。那一刻我放下咖啡杯重新读了三遍文档。这不是遥控是委托。你告诉它“要做什么”它自己决定“怎么做”。2. 从零连上真机不装虚拟机、不root、不越狱的实操路径很多教程一上来就让你租云GPU、配vLLM、调max-model-len……但Open-AutoGLM最务实的一点是它允许你完全本地运行只要有一台能连电脑的安卓手机。我用的是2019年的华为Mate 30Android 11全程没root没刷机没装模拟器。2.1 三步确认手机已“准备好”别跳过这一步。90%的失败都卡在这儿。开发者模式 USB调试设置→关于手机→版本号连点7次→返回设置→开发者选项→开启USB调试。注意部分华为/小米机型还需额外开启「USB调试安全设置」否则ADB识别为unauthorized。ADB Keyboard必须启用这是它能“打字”的唯一方式。下载ADBKeyboard.apk安装后去「设置→语言与输入法→默认输入法」里把它设为首选。验证方法在任意输入框长按弹出“选择输入法”菜单能看到ADB Keyboard被勾选。USB线不是摆设必须是支持数据传输的线。我试过一根纯充电线adb devices永远显示空列表。换原装线后秒识别。2.2 本地控制端5分钟搭好不用碰服务器官方文档强调“需部署云端模型服务”但其实——你完全可以用HuggingFace Transformers本地加载模型跑通全流程适合验证逻辑非生产。我用MacBook M216GB内存 macOS Sonoma实测可行# 1. 克隆代码别用git submodule直接主仓库就行 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建干净环境Python 3.10是硬性要求 pyenv install 3.10.13 pyenv local 3.10.13 pip install -r requirements.txt # 3. 安装包本身让phone_agent模块可导入 pip install -e . # 4. 连接手机USB直连最稳 adb devices # 确认输出类似8A9X123456789ABC device小技巧如果adb devices没反应试试adb kill-server adb start-server再重插USB线。Mac用户若提示“command not found”请按文档配置PATHexport PATH$PATH:~/Downloads/platform-tools2.3 第一次指令不用改代码命令行直接试别急着跑main.py或改examples/里的文件。先用最简方式验证通路python main.py \ --device-id 8A9X123456789ABC \ --base-url http://localhost:8000/v1 \ # 先占个位后面解释 --model dummy \ 打开计算器输入123加456等于你可能会看到报错“Connection refused”。别慌——这恰恰说明控制端已启动只是模型服务还没起。重点是ADB连接成功、指令解析成功、动作规划模块已加载。这就是最关键的“第一公里”打通了。3. 真正惊艳的是它理解界面的方式很多自动化工具失败不是因为不会点而是看不懂点的是什么。比如界面上有三个“搜索”按钮它该点顶部的、中间的还是底部的一个“登录”文字是APP首页的入口还是弹窗里的确认按钮Open-AutoGLM 的解法很聪明它不依赖UI控件树那需要Accessibility权限且不同系统差异大而是把整个屏幕当一张图来“读”。3.1 它看到的不是像素是语义我截了一张小红书首页传给它的视觉编码器得到的不是坐标而是这样一段结构化描述{ current_app: xiaohongshu, page_type: home_feed, visible_elements: [ {type: search_bar, text: 搜索小红书, position: [120, 80, 800, 120]}, {type: tab_item, text: 首页, selected: true, position: [50, 180, 150, 220]}, {type: tab_item, text: 发现, selected: false, position: [200, 180, 300, 220]}, {type: post_card, title: 上海10家绝美咖啡馆推荐, author: 咖啡地图, likes: 2.4w, position: [50, 300, 950, 700]} ] }注意position是[x_min, y_min, x_max, y_max]不是单点坐标。它知道“搜索栏”是一整块区域而不是某个按钮。所以当你指令“点搜索框”它不会盲目点中心而是计算出最可能输入的位置比如搜索栏左半区再模拟点击。3.2 操作规划像真人一样“边看边想”传统自动化是“固定流程”点A→等页面加载→找B→点B→等→找C……Open-AutoGLM 是“动态决策”截屏 → 2. 理解当前页是“小红书首页” → 3. 发现搜索栏存在 → 4. 决定先点击它而非先滑动→ 5. 输入“上海咖啡馆” → 6. 截屏确认键盘弹出、文字已输入 → 7. 找“搜索”按钮在软键盘右下角→ 8. 点击 → 9. 截屏确认进入结果页 → 10. 找第一个笔记卡片 → 11. 点击……每一步都基于最新画面反馈而不是预设等待时间。我故意在它输入时手动切到微信它检测到界面变化立刻中止流程打印日志“Detected app switch to com.tencent.mm, aborting current task”。这种“感知-决策-执行-验证”的闭环才是Agent的雏形。4. 实测5个真实场景哪些能一气呵成哪些还需人工兜底我连续测试了2小时用同一台手机、同一根USB线、未重启任何服务。以下是真实结果非理想化描述4.1 流畅如丝完全无需干预场景指令耗时关键观察APP启动搜索“打开高德地图搜‘最近的加油站’”12秒自动解锁需提前关闭锁屏密码、启动APP、点搜索栏、输入、点搜索按钮结果页完整加载图文交互“打开知乎搜‘大模型怎么入门’点第一个回答向下滚动两屏”28秒准确识别搜索栏、输入框、结果列表滚动使用swipe指令幅度适中未误触广告表单填写“打开12306登录页面输入账号1381234密码**”19秒ADB Keyboard完美输入自动跳过验证码字段因未提供OCR能力它主动跳过并提示“需人工处理”共同点目标元素在首屏可见、文字标识清晰、无动态遮罩层。4.2 需要微调稍作引导即可过关场景指令问题解决方案多步骤电商下单“打开淘宝搜‘无线耳机’选销量第一的商品加入购物车”卡在“加入购物车”按钮——页面有悬浮购物车图标和底部固定按钮模型点了悬浮图标无响应在指令末尾加一句“优先点击页面底部的‘加入购物车’按钮” → 立刻成功跨APP协作“把微信里刚收到的链接复制到Safari打开”无法自动切换APPiOS限制安卓需开启“允许其他应用覆盖”手动长按微信链接→“复制”再运行指令“打开Safari粘贴并访问” → 完美这些不是缺陷而是合理边界它不越权请求系统级权限所有操作都在ADB能力范围内。4.3 当前明确不支持坦诚比画饼更重要视频播放控制无法识别“播放/暂停”图标状态因图标常为动态SVG截图难稳定识别手势操作双指缩放、长按拖拽等复杂手势未实现语音输入场景不接管麦克风仅支持文本指令强混淆界面如银行APP的数字键盘用自定义字体渲染模型识别为乱码。但它会在日志里清晰告诉你“Failed to locate element ‘confirm_button’ in current screen. Suggest manual intervention.”——不假装能干而是诚实告知边界。这点比很多商业产品更可贵。5. 它为什么值得你花30分钟试试回到标题结果出乎意料。出乎意料的不是它多强大而是它多“实在”。没有PPT式Demo所有功能都暴露在main.py和phone_agent/目录下函数命名直白find_clickable_element,type_text_with_adb你想改哪就改哪不绑架你的技术栈模型服务可换HuggingFace、vLLM、甚至OllamaADB连接可切WiFi/USB截图方式支持adb shell screencap或scrcpy安全设计是默认项所有敏感操作如删除短信、拨打电话默认禁用需显式在配置中开启验证码页自动暂停等你人工输入真正在解决“最后一米”不是炫技的多模态而是把VLM能力精准锚定在“手机操作”这个具体任务上拒绝泛化。我删掉了最初写的三段技术原理分析——因为真正打动我的是它帮我自动完成了那件琐碎到不想录屏演示的事把钉钉群里的20张会议截图按日期重命名存进指定网盘文件夹。我只说了一句“打开钉钉进‘项目周会’群下载最近20条图片消息按‘YYYYMMDD_序号’重命名上传到百度网盘‘会议记录’文件夹。”它花了3分47秒做完然后发来一条消息“All 20 images processed. Upload completed.”那一刻我知道这东西已经越过Demo阶段开始进入“可用”区间。6. 给开发者的3条即刻行动建议别等“完美时机”。现在就能动手而且成本极低。6.1 如果你是个人开发者今晚就跑通第一条指令做用你手边最旧的安卓手机Android 7.0按本文2.1节配好ADB做在Mac/Windows上装好Python 3.10git clone后pip install -e .❌ 不做不要先研究vLLM部署、不要先买云GPU、不要先读论文。第一条指令就用这个python main.py --device-id YOUR_DEVICE_ID 打开设置滑到最底点关于手机连点版本号7次——它会帮你开启开发者模式。这才是Agent该干的事替你做重复劳动。6.2 如果你在评估企业落地重点关注它的“可解释性”很多自动化方案黑盒运行出错了只能看日志猜。Open-AutoGLM 的每一步都可追溯logs/目录下有完整截图序列step_001.png,step_002.png…终端输出包含精确动作[ACTION] CLICK (520, 180)--debug参数可打印视觉模型的中间推理如识别出的元素列表。这对金融、政务等强审计场景是刚需。6.3 如果你想贡献社区从文档补全开始官方文档对“WiFi ADB远程控制”的说明略简略。我实测发现adb tcpip 5555后手机需保持WiFi与电脑同网段若手机IP是192.168.1.100连接命令应为adb connect 192.168.1.100:5555不是192.168.1.100:5555首次连接需在手机上确认“允许USB调试”。这些细节正是PR的最佳切入点。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询