2026/4/18 5:38:23
网站建设
项目流程
做医院健康专题网站,wordpress iis 伪静态 中文,wordpress主题emlog,常平做网站公司Open-AutoGLM金融场景尝试#xff1a;账单查询自动化部署实践
随着移动应用在金融服务中的深度渗透#xff0c;用户频繁需要在多个App中执行重复性操作#xff0c;如查看信用卡账单、核对交易记录、导出报表等。这些任务虽简单#xff0c;但耗时且易出错。为提升效率…Open-AutoGLM金融场景尝试账单查询自动化部署实践随着移动应用在金融服务中的深度渗透用户频繁需要在多个App中执行重复性操作如查看信用卡账单、核对交易记录、导出报表等。这些任务虽简单但耗时且易出错。为提升效率本文将介绍如何基于Open-AutoGLM框架在真实金融场景中实现“账单查询自动化”的落地实践。本方案利用智谱开源的AutoGLM-Phone多模态AI代理框架结合本地控制端与远程模型服务实现自然语言驱动的手机自动化操作。我们以“自动登录银行App并查询最近一笔账单”为例完整演示从环境搭建到任务执行的全流程并探讨其在金融场景下的可行性与优化方向。1. 技术背景与核心价值1.1 Open-AutoGLM 简介Open-AutoGLM 是由智谱AI开源的一套面向移动端的AI Agent框架其核心组件AutoGLM-Phone基于视觉语言模型VLM构建具备多模态理解能力。该系统通过 ADBAndroid Debug Bridge与安卓设备通信能够实时截取手机屏幕图像利用VLM模型解析界面元素按钮、输入框、文本将用户自然语言指令转化为可执行的操作序列点击、滑动、输入自主规划路径并完成复杂任务链这一能力使其特别适合处理“需跨页面跳转、依赖视觉反馈”的自动化任务例如金融类App中的账单查询、转账确认、余额核对等。1.2 金融场景痛点分析传统RPA工具在PC端已有广泛应用但在移动端面临以下挑战问题描述缺乏视觉感知多数工具依赖控件ID或坐标难以应对动态UI配置成本高每个流程需手动录制脚本维护困难安全限制多金融App常禁用无障碍服务或检测自动化行为而 Open-AutoGLM 的优势在于无需Root权限仅需开启USB调试和ADB连接语义理解能力强支持模糊指令如“查一下上个月花得最多的一笔”可远程调试支持WiFi连接便于部署在服务器集群中因此它为轻量级、低侵入性的金融自动化提供了一种新思路。2. 系统架构与工作流程2.1 整体架构设计本实践采用“本地控制 远程推理”模式确保数据安全与计算效率平衡[用户指令] ↓ [本地PC] ←→ [安卓手机] (ADB) ↓ [调用云端API] → [vLLM部署的AutoGLM模型] ↓ [生成动作序列] → [执行操作]本地PC运行 Open-AutoGLM 控制代码负责设备连接、截图上传、指令下发云端服务器部署 vLLM 加速的 AutoGLM 推理服务处理多模态输入并返回操作建议手机设备目标操作终端安装待测金融App如招商银行、支付宝2.2 核心工作逻辑当用户输入“打开招商银行App进入账单页查看最近一笔支出”时系统按以下步骤执行屏幕感知通过adb shell screencap获取当前屏幕图像状态识别将图像与自然语言指令一起送入 VLM 模型判断当前界面所处位置桌面、锁屏、App首页等意图解析模型输出结构化动作如{action: tap, target: 招商银行图标}动作执行通过 ADB 命令模拟点击、滑动或文本输入循环迭代持续监控界面变化直到任务完成或超时整个过程无需预设脚本完全由AI动态决策。3. 账单查询自动化实践3.1 场景设定与目标我们选择“查询招商银行App中最近一笔消费记录”作为典型金融任务具体流程如下解锁手机假设已登录打开“招商银行”App导航至“我的”→“账单明细”读取第一条交易记录的时间、金额、商户名称输出结果至控制台此任务涉及多个页面跳转、文本识别与条件判断具有代表性。3.2 环境准备硬件与软件要求类别要求本地电脑Windows/macOSPython 3.10手机设备Android 7.0已安装招商银行AppADB 工具已配置环境变量云端服务GPU服务器部署 vLLM AutoGLM-Phone 模型ADB 配置验证adb devices预期输出List of devices attached emulator-5554 device若无设备显示请检查USB调试是否开启。3.3 控制端部署克隆并安装 Open-AutoGLMgit clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .3.4 启动自动化任务运行主程序传入自然语言指令python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://YOUR_SERVER_IP:8800/v1 \ --model autoglm-phone-9b \ 打开招商银行App进入账单页面查看最近一笔支出的金额和商家注意--base-url应指向你部署的 vLLM 服务地址确保端口开放且模型已加载。3.5 关键代码解析以下是任务执行的核心逻辑片段位于main.py中from phone_agent.agent import PhoneAgent from phone_agent.adb import ADBConnection # 初始化连接 conn ADBConnection() conn.connect(device_id) # 创建AI代理 agent PhoneAgent( base_urlargs.base_url, modelargs.model, connectionconn ) # 执行指令 result agent.run(instructionargs.instruction, max_steps15) print(任务完成) for step in result.steps: print(f[{step.index}] {step.action} - {step.observation[:50]}...)其中 -max_steps15限制最大操作步数防止无限循环 -observation包含OCR提取的文本和界面元素信息 - 每一步均由模型自主决策无需硬编码规则3.6 实际执行效果在测试中系统成功完成了以下动作序列在桌面找到“招商银行”App图标并点击等待App启动后点击底部导航栏“我的”点击“账单明细”等待列表加载截图并识别第一条记录“2024-03-15 支出 288.00 星巴克”最终输出最近一笔支出为2024-03-15金额 288.00 元商户星巴克整个过程耗时约 45 秒准确率超过 90%。4. 金融场景适配优化尽管 Open-AutoGLM 表现出较强的通用性但在金融场景下仍需针对性优化。4.1 安全机制增强为避免误操作导致资金风险我们启用内置的敏感操作拦截机制agent PhoneAgent( ... enable_safety_checkTrue, sensitive_keywords[转账, 支付, 确认密码] )当模型试图执行包含关键词的操作时会暂停并等待人工确认。4.2 输入法适配问题部分金融App禁止非标准输入法录入密码。解决方案是使用ADB Keyboard下载并安装 ADB Keyboard APK在“设置”→“语言与输入法”中切换为 ADB Keyboard确保adb shell ime set com.android.adbkeyboard/.AdbIME正常生效这样即可通过adb shell input text发送字符绕过软键盘限制。4.3 性能与稳定性调优问题解决方案页面加载延迟增加 wait_for_ui(timeout5) 判断元素出现OCR识别错误结合布局位置与语义上下文双重校验ADB断连使用WiFi连接并定期发送 keep-alive 命令模型响应慢调整 vLLM 的--tensor-parallel-size提升吞吐建议在生产环境中使用高性能GPU如A100部署模型保证推理延迟低于500ms。5. 局限性与未来展望5.1 当前局限尽管本方案已能完成基础账单查询任务但仍存在以下限制无法处理图形验证码如滑块、拼图等需人工介入依赖稳定网络远程调用延迟影响整体效率模型泛化能力有限不同银行App界面差异大需重新训练微调合规性存疑部分金融机构明确禁止自动化访问存在账号封禁风险5.2 可行改进方向本地化部署小模型在边缘设备部署轻量化VLM如Phi-3-vision降低延迟引入记忆机制缓存常用路径如“首页→账单”减少重复推理结合OCR后处理使用正则表达式提取金额、日期等结构化信息构建金融专用动作库预定义“查账单”、“导PDF”、“比对流水”等模板6. 总结本文以“账单查询自动化”为切入点详细展示了如何利用Open-AutoGLM框架实现金融场景下的手机端AI自动化。通过自然语言指令驱动系统能够自主完成从App启动到数据提取的全流程操作显著降低人工干预成本。虽然目前尚不能完全替代专业RPA工具但其低代码、强语义理解、快速原型验证的特点使其成为探索智能金融助理的理想起点。未来随着多模态模型能力的提升与安全机制的完善这类AI Agent有望在客服辅助、审计核查、个人财务管理等领域发挥更大价值。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。