2026/4/18 14:03:41
网站建设
项目流程
深圳网站建设 找猴王网络,装潢公司企业网站源码,造作网站模版,简约网站模版SCAN是一种受人类认知模式启发的视觉语言模型增强方法#xff0c;模拟人类系统1快速决策和系统2精细思考的双系统协作。该方法无需额外训练#xff0c;不依赖标注数据或参考样本#xff0c;可在推理阶段即插即用。通过结合VLM的候选筛选能力和基于关…SCAN是一种受人类认知模式启发的视觉语言模型增强方法模拟人类系统1快速决策和系统2精细思考的双系统协作。该方法无需额外训练不依赖标注数据或参考样本可在推理阶段即插即用。通过结合VLM的候选筛选能力和基于关键区分属性的推理分析SCAN显著提升了VLM在细粒度识别任务上的性能实验表明平均准确率可提升10%以上为提升现有模型推理能力提供了新思路。以 CLIP 为代表的视觉语言模型VLM在大规模图文数据上进行了预训练具备强大的通用视觉识别能力。然而在细粒度识别任务上VLM 往往难以区分相近类别之间的细微差异识别能力显著下降。以 CLIP ViT-B/16 为例在仅包含 10 个粗粒度类别的 CIFAR10 数据集上其识别准确率可达到 90%但在包含 200 个细粒度鸟类类别的 CUB 数据集上准确率却只有约 50%。为了提升 VLM 的细粒度识别能力现有方法通常采用如下方式i引入可训练模块Adapter/Prompt Tuning并利用少量标注样本进行微调ii或是依赖参考样本构建类别原型缓存通过检索原型信息辅助 VLM 进行识别。虽然这些方法能够带来一定的性能提升但对标注数据或参考样本的依赖在一定程度上削弱了 VLM 的通用性。针对这一问题在 AAAI 2026 的论文中来自四川大学、南洋理工大学的研究团队受到人类认知模式的启发提出了 SCANSystem-2 enhanced visual recognition一种无需训练、不依赖标注数据或是参考样本、在推理时即插即用的 VLM 增强方法。论文标题Endowing Vision-Language Models with System 2 Thinking for Fine-Grained Visual Recognition论文链接https://pengxi.me/wp-content/uploads/2025/11/SCAN.pdf代码链接https://github.com/XLearning-SCU/2026-AAAI-SCAN研究背景赋予 VLM 精细思考的能力试想一下如果需要从 200 种鸟类中判断一张图像所属的具体类别人类会怎么做对于这类复杂的识别任务人类通常难以直接做出精确判断而是会经历一个从“粗步筛查”到“仔细辨别”的分析过程。从认知科学的角度来看这一分析过程依赖两个互补的认知系统即快速决策的“系统 1” 和精细思考的“系统 2”。 系统 1快思考一种直觉驱动的思维模式依赖经验进行快速决策响应迅速但容易受偏差影响。例如在看到上图中的鸟后大脑会立即形成“这是一只黑色的鸟”的初步判断并迅速排除外观明显不符的类别将候选范围限定在“黑色鸟类”相关的若干类别中。本文实验发现VLM 具备类似系统 1 的快速决策能力。如下图所示尽管 VLM 在细粒度识别任务上的 Top-1 准确率不高和人类一样难以直接做出精确判断但其 Top-20 候选集中往往极大概率包含正确类别即 VLM 能够通过快速决策稳定地筛选出合理的候选类别集合。 系统 2慢思考一种分析驱动的思维模式依赖精细思考处理复杂任务决策更精确但耗时较长。为了进一步确定具体类别人类通常会查阅相关知识获取候选类别的区分性特征如羽毛纹路、头部颜色等与图像中观察到的特征进行对比分析并基于特征匹配程度推理出最终结果。既然 VLM 天然具备类似系统 1 的快速决策能力那能否通过增加一个具备精细分析能力的系统 2模拟人类双系统协作的认知方式来提升 VLM 的细粒度感知能力受此启发论文提出了 SCANSystem-2 enhanCed visuAl recogNition一个即插即用的测试时增强模块在无需训练的前提下增强 VLM 的细粒度识别能力。方法SCAN 的核心思想是在不改变原有 VLM 的前提下引入一个具备“系统 2” 慢思考能力的模块进行细致分析从而提升 VLM 的细粒度识别能力。整体流程如下图所示。1系统 1基于 VLM 进行候选筛选利用 VLM 在预训练阶段获得的通用识别能力从所有类别中排除与识别目标存在显著外观差异的类别为后续推理提供合理的候选集合。2系统 2基于关键区分属性进行推理为了进一步确定具体类别人类通常会查阅相关知识获取候选类别的区分性特征并与图像中观察到的特征进行对比分析。受此启发论文中提出的系统 2 主要包含以下三个步骤。推理关键区分属性利用大语言模型LLM中内蕴的专业知识自动生成一组能够区分候选类别的关键属性如翅膀花纹鸟喙形状等。获取文本描述类别名中蕴含的信息有限利用 LLM 可以获得每个类别在特定属性下的外观描述从而显式地表明细粒度类别之间的外观差异。此外通过可视化 VLM 的注意力分布发现在多模态信息处理的过程中模型容易受到背景中无关纹理的干扰。因此对于待识别的图像同样利用 LMM 基于特定属性进行描述仅保留与类别区分相关的细节信息过滤掉背景等无关因素。最终如下图所示获得了基于同一组区分属性的类别描述和图像描述。文本空间下的分析推理使用文本重排序模型将图像描述与候选集合中的类别描述进行比较推理获得相似度分数。3基于不确定度的系统 12 协同识别通过系统 1 和系统 2 分别获得了快速决策和精细推理的相似度分数核心问题在于如何确定二者的融合权重。由于 VLM 对不同目标的识别能力存在差异采用固定权重难以取得普遍最优的识别结果更为理想的方式是能够根据 VLM 的预测结果进行动态调整。现有方法基于证据理论将模型为每个类别输出的 logit 视为“证据”在预测类别的同时显式给出模型对预测结果的不确定度。但如下图a所示在细粒度任务上这种建模方式的区分能力有限。在细粒度场景下本文观察到当不存在大量干扰类别时VLM 往往能自信地给出预测此时 Top-1 类别的相似度显著高于其余候选即 Top1 与其他类别之间的相似度差值较大。反之当存在大量外观相近的干扰类别时相似类别之间的相似度分数较为接近Top1 与其他类别之间的相似度差值较小。因此研究团队提出以 Top-1 与其余候选之间的相似度差值作为“证据”设计了一种新的不确定度建模方法。如下图c所示这种不确定度建模方式在细粒度识别任务中能够更清晰地区分预测正确与预测错误的情况。实验在 Flowers-102、CUB-200、Food-101 等八个细粒度数据集上SCAN 能够在无需标注数据、无需参考样本、无需额外训练的前提下显著地提升 VLM 的细粒度识别能力。将 CLIP RN50 作为基座模型引入 SCAN 能使平均识别准确率提升 15.70%56.22%→71.92%。将 CLIP ViT-B/16 作为基座模型引入 SCAN 能使平均识别准确率提升 10.53%63.74%→74.27%。对于在更大规模数据上训练的 SigLIP 上引入 SCAN 仍然能使平均识别准确率提升 3.35%表明了 SCAN 作为一种即插即用方法的通用能力。此外对于在海量的生物数据上进行了针对性训练的 BioCLIP它在 CUB 等生物数据集上识别能力远超 CLIPSigLIP达到了 78.48%。在引入 SCAN 后识别准确率仍能能提升至 79.13%0.65%表明即使是经过精细训练的面向垂直领域的 VLM仍然能通过 SCAN 提升推理时的识别能力。进一步地本文还与当前主流的多模态大模型进行对比。从下表中结果可以看出即便是经过大量细粒度数据进行训练的 Qwen2.5-VL 仍劣于本文方法SCAN。换言之除了通过不断增大模型规模和训练数据量及多样性以期持续提升性能在推理阶段中直接增强基础模型的能力亦不失为一种可行的方案。总结针对 VLM 在细粒度识别任务上的能力瓶颈研究团队受到人类“系统 1 系统 2” 认知模式的启发将 VLM 类比为快速决策的系统 1通过引入一个具备精细思考能力的系统 2 来提升 VLM 的细粒度识别能力。总体而言SCAN 无需额外训练也不依赖标注数据和参考样本在推理阶段即插即用即可为多类 VLM 带来性能提升。相关实验结果不仅证明了 SCAN 的有效性和通用性也表明在细粒度识别等具有挑战性的视觉任务中除了通过扩大数据量和参数量构建更强大的预训练模型之外同样有必要探索如何提升现有模型在推理时的能力。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】