南通网站建设规划书网络运营与管理
2026/4/17 19:00:15 网站建设 项目流程
南通网站建设规划书,网络运营与管理,专门做童装的网站,上海互联网seo公司做过爬虫或者自动化测试的朋友#xff0c;应该都体会过被 Selenium 和 Puppeteer 支配的恐惧。为了点一个按钮#xff0c;我们得去扒网页源码#xff0c;找 ID#xff0c;找 Class。一旦网页改版#xff0c;精心写好的脚本瞬间报错#xff0c;维护起来既耗时又耗力。那个…做过爬虫或者自动化测试的朋友应该都体会过被 Selenium 和 Puppeteer 支配的恐惧。为了点一个按钮我们得去扒网页源码找 ID找 Class。一旦网页改版精心写好的脚本瞬间报错维护起来既耗时又耗力。那个时候我就在想要是 AI 能像人一样看一眼屏幕就知道点哪里该多好。如今Google 把这个想法变成了现实。在 GitHub 上开源了一个名为Computer Use Preview的项目直接让 Gemini 模型接管了浏览器。简单来说以前的自动化是“盲人摸象”靠代码定位现在的自动化是“睁眼看世界”靠视觉识别。这个工具背后的逻辑其实很符合直觉就是模拟人的操作流程截图 → 分析 → 行动。它会先给网页截个图通过 Gemini 2.5 Pro 模型强大的视觉能力分析出页面上有哪些输入框、按钮和下拉菜单然后决定下一步该干什么。口说无凭数据最直观。在官方给出的网页任务完成测试里Gemini 拿到了69%的高分。这个成绩相当能打直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。这意味着在处理复杂任务时它更不容易“翻车”。官方演示了几个非常实用的场景让我印象很深。一个是跨网站数据搬运。以前我们要把一个宠物登记网站的信息录入到另一个 CRM 系统里得写复杂的脚本来处理数据接口。现在直接告诉 AI“把这上面的加州宠物信息填到那个系统里顺便预约个时间。”它就能自己切换页面复制粘贴一气呵成。另一个是视觉交互。面对一个贴满乱七八糟便签的网页给它一个指令它就能精准地识别出每一张便签的内容并把它们拖拽到分类区域。这种涉及到空间理解和精细操作的任务传统脚本很难搞定。如果想上手体验目前有两个选择。第一种是懒人模式不想折腾环境的同学Browserbase 提供了一个在线演示环境直接打开网页就能试用感受一下指挥 AI 上网的快乐。在线体验https://gemini.browserbase.com/第二种是开发者模式如果想把数据掌握在自己手里可以在本地部署。Google 提供了详细的部署教程几行命令就能跑起来。# 1. 创建虚拟环境python3 -m venv .venvsource .venv/bin/activate # 2. 安装依赖和浏览器内核pip install -r requirements.txtplaywright install chrome # 3. 开始运行python main.py --query 去 Google 搜索一下 GitHubDaily不过安装前得提个醒虽然它很强但目前毕竟是Preview预览版。官方文档里很明确地指出了一个 Bug在某些系统上底层的 Playwright 抓取不到系统原生的下拉菜单select元素。所以如果发现它对着下拉框发呆选不中选项别怀疑这是目前的已知限制。总的来说Google 这一波开源让我们看到浏览器自动化的水准又迈上了一个新台阶。它不再是机械地执行死板的代码而是开始具备了“看懂”和“思考”的能力。GitHub 项目地址https://github.com/google-gemini/computer-use-preview今天的分享到此结束感谢大家抽空阅读我们下期再见Respect

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询