做网站教程百度云镇江发布的最新消息
2026/4/18 10:07:52 网站建设 项目流程
做网站教程百度云,镇江发布的最新消息,网站 搭建 公司,照片视频制作网站点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入#xff01;个人信息陈博远#xff0c;北京大学元培学院本科生内容简介随着多模态大语言模型#xff08;MLLMs#xff09;在各类挑战性任务中持续取得进展#xff0c;一个关键问题应运而生#xff1a;哪些核心能力仍然缺…点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入个人信息陈博远北京大学元培学院本科生内容简介随着多模态大语言模型MLLMs在各类挑战性任务中持续取得进展一个关键问题应运而生哪些核心能力仍然缺失人类学习的一个关键特征在于与环境的持续交互 —— 这种交互不仅局限于语言还涉及多模态的理解与生成。为了更接近人类水平的智能模型同样需要支持多轮、多模态交互。具体而言模型需能够理解交错的多模态上下文并在持续的交互过程中做出连贯回应。在本研究中作者通过 InterMT 展开了初步探索 —— 这是首个基于真实人类反馈的多轮多模态交互偏好数据集。鉴于当前多模态大语言模型缺乏此类复杂交互能力本研究特别强调人类监督的重要性引入专家标注以指导整个过程。InterMT 从全局和局部两个层面将人类偏好细分为九个维度包含 15.6 k个提示词、52.6 k个多轮对话样本以及 32.4 k个人类标注偏好对。为弥补现有模型在多模态理解与生成一体化能力上的不足本文提出了一种智能体工作流利用工具增强型多模态大语言模型构建多轮问答样本。为进一步推进相关研究目标本文构建了 InterMT-Bench 基准用于评估多模态大语言模型在辅助裁判完成多轮多模态任务中的表现。本文通过价值判断建模等应用场景验证了 InterMT 的实用价值并进一步揭示了裁判模型的多轮扩展律。论文地址https://arxiv.org/abs/2505.23950代码链接https://pku-intermt.github.io/论文解读本文介绍在NeurIPS 2025 DB Track发表的Spotlight论文Top 2.6%研究围绕多轮图文交错场景下的理解与生成协同任务核心探索如何通过人类反馈实现偏好对齐。近年来RLHF、RLVR等技术推动通用人工智能及AI助手能力显著提升模型在数学推理、代码生成、 AI Agent操纵等任务中表现突出GPT-4o等模型更展现出多模态理解与生成潜力。但技术发展背后多模态大语言模型的下一步方向及通用人工智能的关键能力缺口仍是亟待解答的核心问题。人类感知世界的核心方式是动态多轮交互这种交互涵盖文字、图像、音频、视频等多模态信息不同模态信息相互交错融合且贯穿于人类的输入与输出全过程。多轮交互更是目标确认和复杂任务完成的关键例如图片修改、图文故事生成、AI Agent工具调用等场景均需通过多轮交互实现目标。随着技术从传统语言模型向通用AI Agent、多模态AI泛化多模态对齐面临“最后一公里”难题一是通用AI助手需融入真实物理世界通过多轮对话完成复杂推理二是模型需实现模态融合与穿透兼顾多模态理解与生成以支撑高质量交互。多轮交互与多模态理解生成的结合成为迈向通用AI的关键路径。1多模态对齐的三大核心挑战一模态融合挑战不同模态信息可能存在矛盾、冲突或互补如同柏拉图洞穴寓言中对同一事物的不同角度投影需整合多模态信息才能完整建模真实世界同时当前模型虽已具备高精度多模态理解能力但仅靠理解难以支撑通用AI助手构建需融合多模态理解与生成能力实现与人类的真实交互。二长程对齐挑战真实物理世界的交互是多轮次、跨模态、上下文动态演化的过程用户偏好会随任务进展动态变化如图像编辑中新增光影需求如何建模动态演变偏好是亟待解决的核心问题此外长程任务中可能出现信息重构、目标变化等情况模型需具备因果理解与动态规划能力维持对整体任务目标的理解一致性。三人在回路挑战随着任务推进、模态切换与环境演化用户意图与偏好会持续显现或调整同时偏好不仅随时间演化还可能通过不同模态呈现如何从异构模态中抽取、统一并跟踪“跨模态偏好轨迹”同样是多模态对齐场景下的关键挑战之一。2InterMT方法核心设计针对上述挑战研究提出InterMT方法核心洞察为人类价值在长程问题中具有偏好演化与模态异质性的交叉复杂性需通过局部和整体双层次捕获动态偏好具体设计包括一首个多轮多模态人类偏好数据集覆盖15视觉语言任务模拟真实物理世界多模态多轮任务场景填补当前社区缺乏兼顾多模态理解与生成的偏好数据空白。二多模态Agent工作流利用GPT-4o、Gemini-2.5-Pro等多模态模型整合图像编辑、召回、修改等工具构建“理解-生成”一体化多模态Agent实现真实场景下高质量人类偏好数据采集。三双层次细粒度偏好机制从局部和整体两个层次、九个维度捕捉人类偏好整体维度关注任务完成度、图文连贯性等核心要求局部维度聚焦单轮对话的图像文本质量与连贯性同时引入“推理批评指正”三维度语言反馈精细化反映人类偏好与意图。四多轮扩展律有限轮数训练的奖励模型可泛化到更多轮次偏好预测呈现“训练轮数增加带动性能泛化提升”与“泛化轮数增加呈现类对数递减”的趋势有效解决真实场景数据稀缺问题。此外为模拟真实多轮对话任务研究基于认知心理学将人类意图拆解为五大类别构建15视觉语言任务的多轮对话场景同时构建全模态Agent采用苏格拉底提问法模拟人类与AI助手的真实交互过程。3关键发现与评估结果一核心特性1. 整体与局部双向泛化基于局部偏好训练的奖励模型可预测整体偏好基于整体偏好训练的模型能捕获局部意图二者形成互补2. 多轮扩展律验证有限轮训练的奖励模型泛化准确率可从0.4-0.5提升至0.7-0.8显著高于多模态场景下50%-60%的常规水平证明多模态长程交错式人类偏好对价值建模和对齐的重要性和增益。二InterMT-Bench评估发现研究构建InterMT-Bench基准围绕打分评估、偏好对比、关键步骤识别三大任务对六个先进多模态模型进行评估得出以下结论1. 长程对齐的乐观迹象模型在关键步骤识别任务中表现接近人类水平4.38/5为长程价值对齐提供潜在路径2. 模型存在隐藏偏见模型倾向于对特定位置回复及整段对话赋予高分存在位置偏差与高分偏差3. 分而治之策略更优表现出色的模型会逐轮分析对话贡献再给出整体判断低分模型则倾向于模糊回答4. 推理能力并非万能强弱推理模型在评估任务中表现均不理想模型推理依赖预定义准则而非主动识别缺陷导致与人类评价存在偏差5. 模型缺乏深层理解部分模型虽能给出与人类一致的评分但皮尔逊相关系数较低表明模型可能是“猜测”评分未真正理解人类偏好的细微差别。4研究小结本研究的核心动机是构建人在回路、融合多模态理解与生成的多轮对齐机制提出的双层次对齐方法从九个维度建模长程动态价值涵盖局部-全局偏好设置、认知心理学驱动的问题设计、多工具Agent工作流、偏好标注体系及数据集基准五大核心内容。研究发现的判别模型多轮扩展律及方法对视频、音频等多模态场景的无缝扩展性为多模态内容建模提供了有力支持。同时评估结果也揭示了当前多轮多模态模型的显著缺陷未来仍需通过持续的人类多轮偏好对齐释放模型关键步骤识别与多轮扩展潜力。总体而言构建多模态通用人工智能助手仍任重道远本研究期望为多模态对齐领域提供里程碑式参考为社区发展提供支持。本期文章由支昕整理往期精彩文章推荐关于AI TIMEAI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。迄今为止AI TIME已经邀请了2000多位海内外讲者举办了逾800场活动超1000万人次观看。我知道你在看提出观点表达想法欢迎留言点击阅读原文查看作者直播回放

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询