西安网站注册企业所得税优惠政策最新2023年
2026/4/18 8:55:33 网站建设 项目流程
西安网站注册,企业所得税优惠政策最新2023年,化工类网站建设推广,网站开发 职业环境分析除了基础的信息采集#xff0c;这个项目还尝试了一些大模型能解锁的新玩法#xff1a;用 LLM 对多篇新闻做摘要聚合、用多模态模型生成可视化日报图、把同一份信息源输出成不同形态#xff08;网站、钉钉群、领导简报#xff09;。从这个角度看#xff0c;信息采集只是知识…除了基础的信息采集这个项目还尝试了一些大模型能解锁的新玩法用 LLM 对多篇新闻做摘要聚合、用多模态模型生成可视化日报图、把同一份信息源输出成不同形态网站、钉钉群、领导简报。从这个角度看信息采集只是知识库建设的第一步后续还有很多延伸空间。这篇试图说清楚政府/机构网站的技术架构为什么容易获取、多信息源适配的工程技巧、NocoDB 作为轻量数据库的使用体验、钉钉推送时踩过的坑图片显示问题、OSS 权限、LLM 生成日报摘要的 Prompt 设计以及从本地测试到服务器部署的完整链路。⚠️ 合规提示本文仅作为技术方案演示和学习参考。实际应用中请严格遵守以下原则 1. 仅采集公开信息不涉及登录后数据 2. 控制请求频率避免对目标服务器造成压力 3. 内容版权归原网站不做商业分发 4. 遵守《网络安全法》及相关法规 爬虫技术本身中性用途必须合法合规。1需求场景分析从特定信息源定时获取信息这件事其实一直存在各种工具层面的局限性。它本身是个繁琐但在很多场景下又不得不干的活儿。很多人干起来觉得痛苦可能不是因为技术难度高而是没有找到最适合自己场景的方法。对方给出了明确的信息源某行业主管部门官网的两个栏目、某发展研究中心、某垂直门户网站。本来想靠八爪鱼来解决但实际用下来发现规则经常失效、维护成本高。八爪鱼不好用的时候就只能退回到手动浏览、复制粘贴。更麻烦的是没有增量检测每次都要人肉判断下某条新闻昨天是否看过。市面上的工具其实不少但各有各的问题。八爪鱼这类可视化爬虫配置学习成本不低对于每天抓几个固定网站这种简单场景来说有点重。RPA 工具擅长模拟复杂交互登录、验证码但用来爬静态页面就是大炮打蚊子启动浏览器慢、还需要 GUI 环境。Scraping API 类的服务主要解决给一个 URL 返回页面内容的问题但不支持监控列表页增量更新的逻辑你还是得自己写去重。至于 RSS 目前大部分目标信息源没有这也是传统政务网站的通病信息公开意识有了但 RSS 支持没跟上。所以最终的选择是写几个简单的 Python 爬虫脚本针对每个信息源做适配。2政府/机构网站技术架构科普在动手写脚本之前有必要先了解一下这类网站的技术特点。政务/机构网站和电商类的互联网站在架构上差别很大对比维度电商/互联网网站政府/机构网站前端架构SPAReact/Vue客户端渲染数据靠 API 动态加载传统 CMS服务端渲染静态 HTML反爬策略滑块验证、IP 风控、请求签名、参数加密通常无复杂反爬机制爬取难度requests 很难搞经常需要逆向或 Seleniumrequests BeautifulSoup 基本够用简单来说电商网站会想尽办法不让你爬而政务网站的信息本来就是公开的技术上也没做太多限制。国内政务网站常见的 CMS 有 TRS拓尔思、方正翔宇等这些系统的共同特点是页面是服务端渲染的静态 HTML列表页和详情页结构相对稳定URL 规则通常有迹可循。当然技术上容易获取不意味着可以滥用。政务网站的服务器资源有限高频请求可能导致服务器压力、IP 被封甚至法律风险。合规的做法是控制请求频率每秒不超过 1 次、仅采集公开信息、不做商业分发。3技术方案选择先简单对比一下市面上常见的几种方案方案优点缺点适用场景八爪鱼/后羿采集器可视化配置无需编程学习成本高稳定性一般付费一次性采集任务RPAUiPath/影刀能模拟复杂交互需要 GUI 环境执行慢维护成本高需要登录、验证码的场景Scraping API无需部署按量付费不支持增量监控逻辑需要自己写去重一次性爬取特定页面n8nHTTP Request可视化工作流定时触发Python 脚本进 n8n 有环境隔离问题调试困难多系统集成场景Python requests灵活、可控、轻量需要编程能力✅ 增量监控、定制化逻辑可以看到不同方案各有各的适用场景。八爪鱼适合一次性采集任务RPA 适合需要登录验证码的复杂交互Scraping API 适合按需爬取特定页面。但对于每天定时采集几个固定网站、做增量检测这种场景Python 脚本反而是最直接的选择。最终选择了最朴素的 Python requests BeautifulSoup 方案。增量监控需要自定义逻辑——列表页解析、日期过滤、URL 去重、详情页爬取这套流程用代码写最灵活。部署也简单一个 Python 脚本放服务器上crontab 定时跑就行。后续网站结构变了改几行代码就能适配维护成本可控。最初其实考虑过用 n8n 做工作流编排定时触发 → 执行脚本 → 通知后来放弃了。主要原因是如果 n8n 只是当定时器用Linux 自带的 crontab 更稳定Python 脚本放进 n8n 的 Code Node 会遇到环境隔离问题依赖、路径而且这个场景有人工审核断点两个工作流的衔接很别扭。总之对于这个场景n8n 反而是大炮打蚊子。4多源适配的工程细节实际写脚本的时候踩了不少坑。这里整理一下遇到的典型问题和解决思路问题类型具体表现解决方案SSL 证书错误SSLCertVerificationError 部分机构网站证书链不完整请求时设置 verifyFalse同时禁用警告子栏目结构差异同一网站下不同栏目的列表页结构不一致用简单的模式匹配识别分类标题视频/音频内容部分新闻是视频没有文字正文通过标题关键词识别自动跳过外部链接部分新闻实际跳转到外部网站检测 URL 域名非目标域名的直接跳过其中有个值得单独说的点部分网站的新闻会跳转到微信公众号文章。这类链接我选择直接跳过原因是微信公众号有反爬机制直接 requests 请求拿不到正文另外微信生态相对封闭爬取公众号内容存在一定法律风险而且公众号文章通常在官网也有对应版本跳过不影响信息覆盖。代码结构上从最初的单文件脚本重构成了模块化架构。每个网站一个独立的爬虫类继承统一的基类实现 fetch_news_list() 和 fetch_news_content() 两个方法就行。后续新增网站只需要写一个新的适配文件不用改动主流程。5数据存储与去重存储方案对比了几种选择方案优点缺点Excel简单直接并发写入有问题无法通过 API 查询SQLite轻量级数据库需要写 SQL非技术人员不好用飞书多维表格云端协作界面友好API 有调用频率限制数据存在第三方NocoDB类 Airtable 体验支持 REST API本地部署需要 Docker 环境最开始其实考虑过用飞书多维表格毕竟界面友好、支持协作。但后来还是选择了本地部署的方案主要是考虑到数据安全和长期稳定性。云端服务的 API 限制、数据归属权、后续迁移成本都是隐患。NocoDB 是一个开源的 Airtable 替代品GitHub 上有 61k 的星标社区很活跃。它可以把 MySQL、PostgreSQL 甚至 SQLite 包装成类似 Airtable 的 Web 界面支持 REST API 读写。对于这个场景来说刚好够用对方可以直接在网页上查看、筛选、导出不需要懂数据库脚本通过 API 写入数据接口设计和 Airtable 类似上手很快。如果觉得 Docker 部署麻烦SQLite 一个简单的 Web 界面比如 sqlite-web 或者 Datasette也是类似的思路。NocoDB开源地址https://github.com/nocodb/nocodb去重逻辑比较简单用新闻 URL 作为唯一标识每次运行前先查询数据库里已有的 URL 列表只处理不在列表里的新增内容。另外为了区分不同来源设计了层级化的 Source 字段比如网站 A-要闻栏目、网站 B-媒体之声这种格式方便后续在数据库里按来源筛选和统计。6完整工作流设计整体工作流分成三个阶段采集阶段、人工审核和日报生成阶段。用一张图来展示会更清晰采集阶段由定时任务触发比如设置crontab 每天早上 8 点运行采集脚本依次抓取列表页、日期过滤、URL 去重、爬取正文、入库。采集完成后会推送一条钉钉消息告诉对方采集完成共 N 条待审核消息里附带审核地址NocoDB 的 Web 界面和生成日报的链接。日报生成阶段是人工触发的。对方在数据库里审核完新闻把 Status 改成已发布然后点击钉钉消息里的生成日报链接。这个链接会调用一个 FastAPI 端点查询所有已发布的文章调用 LLM 生成日报摘要最后推送到钉钉群。关于日报触发机制考虑过几种方案方案优点缺点双定时任务最简单必须在固定时间前完成审核API 手动触发灵活审核完随时点需要额外开发 API 服务数据库 Webhook自动化程度高配置复杂每条更新都触发最终选择了 API 手动触发。原因很简单审核完成后点击链接即可不受时间限制FastAPI 几十行代码就能搞定开发成本很低。日报输出目前规划了两种形式。一种是正式的 Markdown 版LLM 输出结构化的 JSON标题、分类、一句话摘要用模板渲染成 Markdown通过钉钉 Markdown 消息推送。另一种是美观的图片版调用多模态 API 生成信息图内容压缩、视觉效果好适合朋友圈或群分享。7本地测试与服务器部署本地测试和服务器部署的流程略有不同主要区别在于触发方式。本地测试时需要手动运行两个脚本。先运行 python main.py 完成采集入库然后打开 NocoDB 网页界面进行人工审核把 Status 改成已发布最后运行 python generate_daily.py 生成日报。两个脚本之间有一个人工审核的断点毕竟不是所有采集到的新闻都需要发布。服务器部署之后采集脚本由 crontab 定时触发每天早上自动运行。采集完成后钉钉会推送一条消息里面带着审核链接和生成日报的链接。对方在手机上收到通知点击链接可以直接打开 NocoDB 进行审核审核完再点击生成日报链接触发 FastAPI 端点。整个过程不需要登录服务器。简单对比一下两种模式的差异环节本地测试服务器部署采集触发手动python main.pycrontab 定时自动审核界面http://localhost:8080http://服务器 IP:8080日报触发手动python generate_daily.py点击钉钉消息链接API 服务可选必须运行部署架构也很简单一台云服务器上跑两个 Docker 容器NocoDB 和 FastAPI加一个 crontab 定时任务。NocoDB 暴露 8080 端口用于审核FastAPI 暴露 8000 端口用于触发日报生成。两个服务都通过钉钉 Webhook 推送消息。这个方案能跑通的前提条件其实很简单目标网站是传统 CMS、静态 HTML、无复杂反爬请求量很小每天一次、每次几十条人工审核是必要的不追求全自动部署足够简单两个 Docker 容器加一个 crontab 就搞定。8IM 推送与日报生成的工程细节这部分踩了些坑值得单独拿出来说一下。本文以钉钉为例演示推送和审核的细节实际上也可以换成企业微信、飞书或者内部的 IM 工具实现逻辑是类似的。钉钉有两种推送方式适用于不同场景方式推送目标获取方式适用场景工作通知个人App 内推送创建企业内部应用获取 Client ID/Secret/Agent ID采集完成提醒群机器人群聊在群设置中添加自定义机器人获取 Webhook URL日报发布这个项目里组合使用了两种方式采集完成后通过工作通知推给运营负责人私信更容易引起注意日报生成后通过群机器人发送到群里方便大家一起看。关于图片消息显示问题。一开始用 image 消息类型发送图片结果在群里显示为一个小缩略图类似表情无法点击放大。查了文档才发现钉钉群机器人的 image 消息类型本身就有这个限制。解决方案是把图片嵌入到 Markdown 消息中# ❌ 错误方式单独发送图片消息 payload {msgtype: image, image: {picURL: url}} # ✅ 正确方式在 Markdown 中嵌入图片 content f## 日报标题 内容... ![日报图片]({image_url}) payload {msgtype: markdown, markdown: {title: 日报, text: content}}关于 LLM 日报生成也有一些 Prompt 优化的经验。钉钉的 Markdown 渲染能力比较有限如果不针对性优化LLM 输出的内容会标题和正文挤在一起、列表项没有视觉分隔、整体看起来像一大段文字。优化后的 Prompt 要点是每条新闻用引用块包裹、标题加粗、用分隔线区分不同部分、适当添加 emoji 增加可读性。图片生成方面最终选择了 gemini-3-pro-image-preview也就是 Nano Banana Pro通过 OpenRouter 调用。这个模型是目前端到端多模态生图能力较强的选择之一中文提示词支持好、输出质量稳定。这种原生的多模态能力给日报输出解锁了一些新的可能不只是文字摘要还能自动生成美观的信息图适合在群里分享。完整的日报生成流程是LLM 生成日报摘要DeepSeek V3.2→ 多模态模型生成信息图Gemini→ 上传图片到 OSS 获取公网 URL → 构造 Markdown 消息嵌入图片 → 发送到钉钉群。9写在最后跳出这个项目来看这类需求其实非常普适。政策研究机构追踪部委公告、行业协会收集会员单位新闻、企业市场部监控行业资讯、投资机构追踪标的公司公告本质上都是从若干固定信息源定期采集增量内容。这类需求的共同特点是目标网站技术上不复杂、需要增量监控而非一次性采集、对实时性要求不高、体量也不大。大模型的成熟给这类需求解锁了一些新的可能。以前信息采集就只是采集输出的是原始素材后续的摘要、加工、分发还得人工来。现在可以做到多篇新闻自动聚合摘要、生成结构化的日报输出、甚至用多模态模型生成可视化的信息图。同样一份信息源可以输出给网站、给 IM 群、给领导简报形态各异但流程自动化。这就不只是信息采集了而是知识库素材生成的第一步。最后还是要强调一下合规问题爬虫技术本身中性但用途必须合法合规控制请求频率不对目标服务器造成压力仅采集公开信息不涉及登录后数据内容版权归原网站不做商业分发。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询