2026/4/18 11:43:05
网站建设
项目流程
外贸网站源码免费,做网站的公司属于什么行业,wordpress重置后导航没反应,深圳外贸网站设计公司一、OmniDrive-R1#xff1a;强化驱动的交织多模态思维链以实现值得信赖的视觉语言自动驾驶二、论文卡片本文提出了OmniDrive-R1#xff0c;一种基于强化学习的端到端视觉语言模型框架#xff0c;通过交错多模态链式思考机制#xff0c;显著提高了自动驾驶中的推理性能和可…一、OmniDrive-R1强化驱动的交织多模态思维链以实现值得信赖的视觉语言自动驾驶二、论文卡片本文提出了OmniDrive-R1一种基于强化学习的端到端视觉语言模型框架通过交错多模态链式思考机制显著提高了自动驾驶中的推理性能和可靠性。论文框架: OmniDrive-R1 的总体 iMCOT 推理框架。模型在一个迭代循环中运行从原始图像I_0和一个问题开始视觉语言模型生成一个文本思维。然后它自主决定是否调用放大工具来主动放大一个关键的视觉区域动态获取新的细粒度视觉证据裁剪图像 1I_1基于其原生定位能力。这个新输入被交织到思维过程中允许视觉语言模型迭代地细化其推理直到产生可靠的答案。论文效果: OmniDrive-R1 的两阶段强化学习管道。训练过程有效地解耦了工具学习与任务优化。第一阶段工具学习左利用新颖的Clip-GRPO算法在D_detial上执行以强制实现稳健的定位处理奖励ROI定位奖励该奖励无需注释使用CLIP的跨模态一致性来确保局部化区域与推理文本语义相关。第二阶段领域学习右在自动驾驶数据集D_drive上微调得到的VLM使用GRPO优化工具调用的时机和最终驾驶决策结果奖励。主要结果: 与其它开源和专有VLM以及专门的空间理解模型的比较。Yaw、Pixel、Depth、Dis、L/R和F/B对应六个空间推理任务。得分列代表这六个指标的平均表现。粗体最佳。下划线第二最佳。论文信息标题: OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving论文: https://arxiv.org/abs/2512.14044v1作者: Zhenguo Zhang, Haohan Zhen, Yishen Wang, Le Xu, Tianchen Deng, Xuefeng Chen, Qu Chen, Bo Zhang, Wuxiong Huang单位: 上海科技大学, 清华大学, 同济大学, 上海交通大学, MEGVII Technology, Mach Drive日期: 2025-12-16 03:19:28领域:Computer Vision and Pattern Recognition (cs.CV),Artificial Intelligence (cs.AI)页数: 13 pages, 4 figures, 3 tables三、论文概述研究背景与问题当前研究领域中视觉语言模型VLM在自动驾驶等安全关键领域部署时面临可靠性问题尤其是对象幻觉现象。这种失败主要源于依赖于未接地的文本链式思考CoT推理。尽管现有的多模态CoT方法试图缓解这些问题但它们存在两个根本缺陷感知和推理阶段分离无法进行端到端联合优化依赖昂贵且密集的定位标签。因此需要开发新的方法来解决这些挑战。论文方法OmniDrive-R1是一种端到端的VLM框架专为自动驾驶设计通过交错多模态链式思考iMCoT机制统一了感知和推理。该模型的核心创新在于引入了基于强化学习的视觉接地能力使模型能够自主地将注意力集中在关键区域进行细粒度分析。具体技术实现包括两阶段强化学习训练策略首先在精选数据集上训练工具使用基础然后在自动驾驶数据集上进行微调以适应实际驾驶场景并优化工具调用时机。Clip-GRPO算法采用无注释的过程级接地奖励利用CLIP模型的跨模态一致性确保视觉焦点与文本推理之间的实时一致性从而消除对外部工具调用的依赖。核心创新点端到端的强化学习驱动框架OmniDrive-R1是首个完全基于强化学习的端到端VLM框架通过iMCoT机制统一了感知和推理过程。Clip-GRPO算法引入了一种新颖的无注释过程级接地奖励机制显著增强了模型内在接地能力和文本推理的一致性。数据生成管道将开放式的场景问答转换为易于验证的多选或真/假问题提升了奖励信号的准确性与可扩展性。实验结果实验在DriveLMM-o1数据集上进行与基线模型Qwen2.5VL-7B相比OmniDrive-R1的整体推理得分从51.77%提升至80.35%最终答案准确率从37.81%提升至73.62%。消融实验表明两阶段训练策略和结构化工具使用奖励对性能提升至关重要。此外在SURDS基准测试中OmniDrive-R1展示了强大的零样本空间推理能力整体得分为31.95超越了多个开源和专有VLM模型。结论与影响OmniDrive-R1通过引入基于强化学习的视觉接地能力解决了VLM在自动驾驶中的可靠性问题特别是在对象幻觉方面。该框架不仅提升了推理性能和可靠性还展示了良好的泛化能力。未来的研究将进一步扩展到长时视频推理和多智能体场景为可信的VLM自动驾驶提供了有前景的方向。四、论文精读摘要在自动驾驶AD等安全关键领域部署视觉-语言模型VLMs时可靠性故障严重阻碍了其应用最显著的问题是目标幻觉。这种故障源于它们依赖于未接地的基于文本的思维链CoT推理。虽然现有的多模态CoT方法试图缓解这一问题但它们存在两个根本缺陷(1) 分离的感知和推理阶段阻碍了端到端联合优化(2) 依赖昂贵的密集定位标签。因此本文引入了OmniDrive-R1这是一个专为自动驾驶设计的端到端VLM框架通过交错的多模态思维链iMCoT机制统一了感知和推理。本文的核心创新在于一种强化学习驱动的视觉接地能力使模型能够自主地引导其注意力并“放大”关键区域进行细粒度分析。这一能力由本文纯两阶段强化学习训练管道和Clip-GRPO算法提供支持。至关重要的是Clip-GRPO引入了一种无需标注的过程化接地奖励。这种奖励不仅消除了对密集标签的需求还通过强制实时跨模态一致性来规避外部工具调用的不稳定性从而确保视觉焦点和文本推理之间的一致性。在DriveLMM-o1上的广泛实验表明本文模型取得了显著改进。与基线Qwen2.5VL7B相比OmniDrive-R1将整体推理得分从提高到最终答案准确性从提高到。1. 引言自动驾驶AD系统的进步已经从纯粹的目标检测和跟踪转向了复杂的安全关键场景下的高级推理和决策[34, 41]。意图预测、因果解释和抽象策略规划等任务需要超越简单感知的能力这对于稳健的驾驶部署至关重要[15, 27]。视觉-语言模型VLMs无缝集成视觉感知与强大的语言推理已成为此类复杂认知AD代理的有前景的基础[45]。通过利用思维链CoT推理[43]VLMs可以阐述其决策过程提供前所未有的透明度和可解释性。尽管存在这种潜力VLM在AD中的部署受到基本可靠性问题的严重阻碍最显著的问题是对象幻觉[2, 52]。这一问题源于当前依赖于未接地的基于文本的CoT推理。当模型的“思维过程”主要局限于离散的文本标记时它可能会失去对连续动态视觉场景的保真度导致虚构不存在的对象、状态或关系。在自动驾驶中即使模型幻觉出一个微小的细节也可能导致灾难性和危及生命的故障。为了解决这一挑战一种新的多模态交互推理范式正在出现[7, 14, 18]。最近的研究提出了基于预定义工作流的策略[17, 31, 36]和工具增强的方法[27]以将视觉信息纳入CoT推理中。前者通常采用刚性的硬编码推理路径。这种结构上的不灵活性极大地限制了它们的适应性使它们只能应用于特定的预定义问题类型并且无法推广到新场景。后者将关键感知子任务委托给一组不同的外部模型。这种解耦架构从根本上破坏了感知推理过程的完整性阻碍了端到端联合优化并使得跨模态一致性难以保证。因此这些方法不仅产生次优解决方案[30]而且未能培养和利用核心VLM本身的内在细粒度视觉处理潜力。至关重要的是这两种范式还受到对大规模高质量标注推理数据的依赖这既昂贵又难以获取。图1. OmniDrive-R1交错多模态链式思维推理示例。模型通过主动调用放大工具来启动多步思维过程第一轮从而将其推理基于关键区域交通信号灯。该机制动态获取细粒度的视觉证据第二轮直接用于细化思维并得出自信的、有视觉支持的最终答案。这种主动、基于证据的过程显著增强了接地性和可解释性。相比之下人类驾驶员主要依赖认知过程与其周围环境的视觉信息之间的动态互动来做出判断并采取行动。这需要持续且动态地与视觉数据进行交互。受此启发本文假设通过仅优化其固有的感知和推理能力VLM可以达到相同的目标。在这里感知类似于驾驶员与场景的认知互动以获取视觉信息而推理则对应于他们对信息的理解过程。基于这一见解本文引入了OmniDrive-R1这是一种专为自动驾驶设计的端到端VLM框架。如图1所示OmniDrive-R1通过交错的多模态思维链iMCoT机制赋予VLM自适应的主动感知能力。本文的核心技术创新在于一种强化驱动的视觉定位能力使模型能够在推理过程中自主地引导其注意力并放大关键区域进行细粒度分析。这种激活完全由基础VLM的内在定位潜力驱动消除了对外部工具的依赖。具体而言这一能力通过采用本文提出的Clip-GRPO的纯两阶段强化学习RL训练策略实现。基于组相对策略优化GRPO[32]Clip-GRPO引入了一种创新的、无需标注的过程化定位奖励。该奖励利用CLIP模型[29]的跨模态一致性实时对齐模型的视觉焦点和文本推理从而消除对密集定位标签的需求并规避外部工具调用的不稳定性。总之本文的主要贡献如下本文提出OmniDrive-R1这是首个完全基于RL驱动的端到端VLM框架用于自动驾驶。OmniDrive-R1通过iMCoT机制统一了感知和推理该机制利用VLM的本真接地能力动态定位最相关的任务关键区域进行细粒度分析无需依赖外部模型。本文引入Clip-GRPO这是一种新颖的RL训练策略解决了工具学习中的标签依赖性和不稳定性问题。它创新地结合了一个基于CLIP跨模态一致性的无注释、过程化的接地奖励显著增强了模型本真接地与文本推理之间的一致性。本文展示了OmniDrive-R1在自动驾驶推理基准测试中实现了统计上一致的最先进SOTA性能显著超越了领先的行业模型例如GPT-4o [16]Qwen2.5VL-72B [3]以及基于SFT/工作流的VLMs例如Agentthink [27]DriveLMM-o1 [15]。2 相关工作2.1 多模态大语言模型推理大型语言模型LLMs的快速发展为多模态大型语言模型MLLMs提供了坚实的基础。LLMs表现出令人印象深刻的推理能力这主要归功于CoT提示[19, 24, 26, 35, 42, 43]它引导模型生成可解释的中间步骤并模仿人类推理。将这一范式扩展到多模态上下文最近的研究探索了基于训练和基于提示的策略来增强MLLM推理。从训练的角度来看一些研究引入了多模态推理链[18, 37, 39, 46]并构建高质量的推理数据集[10, 33]。LLaVA-CoT [46]采用四阶段推理过程并使用结构化标注而LIamav-o1 [39]则结合课程学习和束搜索以实现高效进展。 [44]利用世界知识来增强上下文接地Virgo [10]表明文本推理数据可以有效触发MLLMs的“慢思考”行为。预训练方法如Flamingo [1]和KOSMOS-2 [25]进一步通过学习交错或接地的图文对[21, 53]来弥合模态差距。从提示的角度来看研究集中在提示设计上以提高对复杂视觉任务的理解[13, 22, 49–51]。例如突出显示提示令牌允许在多模态大模型中进行可控和交互式生成而无需额外训练[50]。然而大多数方法仍然主要依赖于文本驱动限制了它们在视觉密集型推理中的有效性在这种情况下视觉定位和步骤级可解释性至关重要。2.2. 自动驾驶中的多模态大模型多模态大模型/视觉语言模型的集成重塑了端到端自动驾驶实现了强大的场景理解和推理[8, 11, 28, 47]。NuScenes-QA[28]建立了第一个用于驾驶场景的视觉问答基准Talk2BEV[8]结合了鸟瞰图表示进行多任务视觉推理。最近的一些工作[9, 23]强调了推理增强例如Reason2Drive[23]引入了一个视频文本基准和一个基于链式推理的聚合评估指标DrivingVQA[9]采用基于检索的视觉CoT推理来减少对文本线索的依赖。为了进一步减轻幻觉和低效问题AgentThink[27]通过监督微调和GRPO将CoT推理与动态工具调用相结合。尽管这些努力推进了推理结果但大多数方法忽视了中间推理步骤的准确性这对于自动驾驶等安全关键领域至关重要。确保每个推理阶段的逻辑一致性和准确性仍然是一个开放的挑战。为此本文提出了一种两阶段强化学习框架显式优化推理可靠性并引入了一个评估协议来评估步骤级准确性和连贯性。3. 方法在本节中本文首先在第3.1节介绍所提出的方法OmniDirve-R1的概述。随后在第3.2节中本文详细介绍了两阶段端到端RL训练过程以及相应的奖励设计。最后本文在第3.3节中介绍了一个自动化的带有可验证奖励的强化学习RLVR格式的数据构建管道。3.1. OmniDrive-R1OmniDrive-R1 是一个多模态驾驶代理通过 iMCoT 推理过程实现“利用车载相机的不同视角进行思考”。模型的接地和推理能力通过端到端强化学习联合优化使其能够利用其内在的接地能力来定位关键的任务相关信息。如图 2 所示本文模型以问题 和由六个不同的车载摄像头视图生成的原始图像 作为输入。为了形式化迭代推理过程本文定义了 iMCoT 在步骤 t 的状态 如下图 2 展示了这一过程。其中 表示步骤 t 之前的裁剪图像标记而在每一步中OmniDrive-R1 自主决定输出最终答案还是使用放大工具 来从感兴趣区域获取信息其中 表示在步骤 t 调用的放大工具。该工具的输入包括一个边界框 及其对应的类别标签 这些是由模型在推理步骤 t 中生成的。成功调用放大工具 后代理返回一个其认为对当前推理过程至关重要的关键区域例如 。给定状态 动作 从策略模型 中采样。这个交互过程可以自主迭代直到达到最终答案或达到最大工具调用次数。值得注意的是文本标记 和图像标记 在状态中交替出现。3.2. 两阶段训练管道为了使模型能够在上下文感知和及时的方式下利用放大工具本文提出了一种两阶段强化学习策略详情见图 3。最初模型在一个精心策划的数据集上进行训练以学习工具使用的基础知识。随后本文在自动驾驶数据集上微调第一阶段的模型使其适应现实世界的驾驶场景并优化工具调用的时机。3.2.1. 第一阶段工具学习为了有效训练模型的工具调用能力本文在第一阶段对精心挑选的数据子集 上进行微调该子集来自DeepEyes数据集[27]。这些选定的数据点具有工具使用与准确性提升之间明显的相关性这有助于最初鼓励模型在解决问题时调用工具。图2. OmniDrive-R1的整体iMCOT推理框架。模型在一个迭代循环中运行从原始图像 和一个问题开始视觉语言模型生成一个文本思维。然后自主决定是否调用放大工具来主动放大关键视觉区域动态获取新的细粒度视觉证据裁剪图像1 基于其固有的定位能力。这一新输入被交织到思维过程中允许视觉语言模型迭代地细化其推理直到产生可靠的答案。然而本文观察到在推理过程中模型表现出强烈的基于文本推理的偏好导致工具调用不频繁。这种行为在早期训练阶段尤为明显此时模型的内在定位能力尚处于初级阶段。仅基于最终结果的奖励信号可能会阻碍模型探索必要的工具使用。此外虽然提供人类标注的关键区域边界框可以引导这种探索但这成本高昂且劳动密集严重限制了训练方法的可扩展性。因此为了促进定位、推理和工具利用之间的协同作用本文引入了Clip-GRPO算法。该算法通过提出一种新颖的奖励机制来解决上述挑战该机制包括基于过程的兴趣区域ROI定位奖励和基于结果的工具高效奖励。基于过程的奖励本文引入了ROI定位奖励作为即时奖励信号以指导模型在步骤t成功调用工具后的定位行为。本文利用预训练的CLIP模型计算返回区域图像 与其对应的预测标签 之间的相似度分数 如公式2所示这种设计提供了两个关键优势首先它避免了对关键区域进行劳动密集型的手动标注从而允许更大规模的训练。其次它确保了裁剪后的视觉内容与生成标签之间的语义相关性促进了推理过程中的高质量定位。为了防止模型通过频繁调用工具来利用这种奖励本文引入了一个衰减系数 来缓解这种行为。该系数惩罚过度的工具调用鼓励模型仅在真正有益于解决问题时才谨慎地使用工具。因此对于一个包含 次工具调用的推理轨迹 基于过程的奖励如公式 (3) 所示图3. OmniDrive-R1 的两阶段强化学习管道。训练过程有效地解耦了工具学习和任务优化。第一阶段工具学习左侧利用新颖的 Clip-GRPO 算法在数据集 上强制执行稳健的定位过程奖励ROI 定位奖励无需标注使用 CLIP 的跨模态一致性来确保局部区域与推理文本在语义上相关。第二阶段领域学习右侧在自动驾驶数据集 上微调得到的视觉语言模型使用 GRPO 优化工具调用的战略时机和最终驾驶决策结果奖励。基于结果的奖励。为了强化合理使用工具的推理轨迹本文采用一种三部分奖励策略包括准确性奖励 格式化奖励 和适当使用工具的奖励 。准确性奖励评估最终答案的正确性而格式化奖励则惩罚结构不良的输出。工具使用奖励 仅在模型获得正确最终答案并在轨迹中调用至少一个工具时给予。给定一个推理轨迹 基于结果的奖励定义为公式 (4)其中 和 是超参数 是指示函数仅当 时取值为 1。总结来说对于一个包含 次工具调用的推理轨迹 总奖励 如公式 (5) 所示3.2.2. 第二阶段领域学习在第一阶段微调之后本文的视觉语言模型已经获得了强大的基础能力并且擅长利用工具。因此第二阶段的主要目标是使模型能够根据场景和查询的复杂度自主决定是否调用工具以捕捉细粒度信息。为了这一目的第一阶段微调的VLM使用GRPO算法[32]在自动驾驶推理数据集上进行优化采用包括准确性奖励和格式奖励的奖励策略。给定一个推理轨迹第二阶段的奖励定义为公式(6)3.3. 数据生成管道先前的研究表明易于验证的奖励信号对于训练有效的强化学习代理至关重要[32]。然而现有的自动驾驶数据集由于其开放式的格式在奖励验证的准确性和可扩展性方面存在显著挑战。为了解决这一局限并增强这些数据集在RL中的实用性本文引入了一个可验证的数据生成管道如图4所示该管道将开放式场景转换为易于验证的选择题或真假问题。具体而言本文首先利用先进的MLLM例如Qwen2.5VL-72B[3]进行多样化的候选采样。这些生成的样本随后基于一组预定义的规则进行评分。应用拒绝采样策略来过滤掉低于预定阈值的样本。最后仅选择得分最高的样本形成最终高质量数据集Ddrive rl。图4. 自动生成用于生成RL可验证数据的管道。为了提高RL训练中的奖励验证准确性和可扩展性从中提取的开放式场景QA 被转换为结构化且易于验证的格式选择题或真假题。该过程利用先进的MLLMQwen2.5VL-72B进行多样性采样然后通过基于规则的评分系统评估格式和答案正确性并通过拒绝采样进行质量控制以确保最终数据集具有高质量并适合高效的RL优化。4. 实验在本节中本文首先详细介绍了实验设置包括数据集、评估指标和实现细节。随后本文展示了本文方法与开源和闭源VLM的全面比较。此外本文还进行了消融研究以验证每个组件的有效性并进行了泛化测试以评估框架在各种场景下的鲁棒性。4.1. 实验设置数据集本文的训练数据分为两个阶段构建。初始阶段1工具学习本文利用DeepEyes数据集[27]的一个子集包含14,452个基于推理的问答对特别选择这些数据以鼓励工具使用。后续阶段2领域学习则利用了来自DriveLMM-o1数据集[15]的18,507个问答对该数据集旨在评估模型对感知、预测和规划任务的理解能力。此外为了评估本文模型的性能本文使用了两个基准。首先本文在DriveLLMo1评估集上测量模型的有效性。本文还使用SURDS评估集[12]进行零样本测试以评估模型的泛化能力。评估指标本文采用DriveLMM-o1的评估指标。具体而言本文利用整体推理得分来衡量VLM的综合推理能力并使用多项选择质量MCQ来评估最终答案的准确性。更多详情见附录A。实现细节本文使用Qwen2.5VL-7B[3]作为基础模型。训练阶段使用 NVIDIA A800 GPU进行。所有RL阶段均采用GRPO框架每个问题进行8次滚动限制每条轨迹的最大工具调用次数为5次。4.2. 主要结果为了全面评估OmniDrive-R1本文将其与一系列强大的开源VLM模型进行基准测试包括DeepEyes、InternVL-2.5、LLaVA-CoT以及Qwen2.5-VL系列在零样本设置下进行比较。本文还将其与在DriveLMM-o1数据集上微调的一系列最先进VLM模型进行比较例如Agentthink[27]和DriveLMM-o1[15]以及闭源VLM模型如GPT-4o。主要结果展示在表1中本文模型OmniDrive-R1在所有类别上达到了最先进水平的表现。与基线模型Qwen2.5VL7B相比本文模型展示了显著的改进整体推理得分从提升到最终答案准确性从提升到。与SFT方法DriveLMM-o1相比OmniDrive-R1在推理得分上提高了在多项选择题MCQ上提高了。此外OmniDrive-R1在推理 对比 和MCQ 对比 上均超过了Agentthink证明了通过增强视觉语言模型的本源接地和推理能力可以实现优于依赖广泛外部定义工具集的方法的性能。表1. 在DriveLMM-o1基准上的评估结果。OmniDrive-R1通过利用动态多模态交错思维链推理在所有指标上实现了最先进水平的表现。4.3. 消融研究本文进行了一系列消融实验以严格评估OmniDrive-R1内部各种奖励信号和训练策略的有效性。这些实验的定量结果总结在表2中。观察发现消融研究表明渐进的两阶段训练策略和结构奖励信号相对于基线都有显著的改进。完整模型OmniDrive-R1在所有指标上达到了最先进水平的表现。训练策略消融实验本文首先确认了渐进训练方法的必要性。本文将仅在DriveLMM-o1上进行完整奖励训练的单阶段训练模型 Clip GRPO与最终的两阶段训练模型OmniDriveR1进行了比较。结果显示两阶段方法在推理和最终准确性方面取得了显著提升推理 对比 MCQ 对比 。MCQ上的改进强烈验证了渐进训练方法对于充分释放模型潜力的必要性。Clip-GRPO消融实验本文将同时在DriveLMM-o1上进行监督微调(SFT)和Clip-GRPO微调阶段的强化学习优化模型与基线sft模型在DriveLMM-o1上微调的基础模型进行了对比显示在推理( 对比 )和MCQ( 对比 )上均有持续的提升。这证实了强化学习方法能够有效超越SFT限制进一步优化模型策略。关键的是本文将完整的模型(OmniDrive-R1)与两阶段GRPO方法)进行了对比后者使用与OmniDrive-R1相同的训练阶段但省略了基于过程的接地奖励。显著的性能差距推理 对比 MCQ 对比 提供了强有力的证据表明接地奖励对于实现高质量多模态推理和引导明智工具调用不可或缺。泛化评估为了严格评估OmniDrive-R1的鲁棒性和跨域迁移能力本文在SURDS评估集[12]上进行了零样本评估。SURDS基准测试专门设计用于测试细粒度的空间推理能力要求模型能够定位并理解相对于自车和其他场景元素的对象。这些任务对视觉定位错误非常敏感并需要对场景进行深入的多层次理解因此作为模型泛化能力的一个极好探测器。SURDS的具体细节见附录A。该基准测试包含六个具有挑战性的空间推理任务单对象定位的Yaw、Pixel和Depth以及多对象关系推理的Dis距离、L/R左/右和F/B前/后。表3总结了结果对比了OmniDrive-R1与其他多种领先的开源和专有VLM以及专门的空间理解模型SpatialBot[4]和SpatialRGPT[4]。OmniDrive-R1展示了强大的零样本性能总体得分为31.95。这一表现极具竞争力在统计上超过了基线Qwen2.5VL-7B-Instruct12.61并且与大型专有模型如Gemini1.5-pro32.77和Qwen2.5-VL72B-Instruct33.47表现出相当的能力尽管模型规模存在显著差异。值得注意的是本文模型在Pixel任务上取得了最佳性能39.46。相比基线Qwen2.5VL-7B-Instruct3.46的巨大提升表明基于过程的定位奖励有效提升了VLM原生定位视觉区域的能力并建立了图像裁剪与推理文本之间的高保真对应关系。此外本文模型在Depth36.72和多对象指标Dis46.25及L/R46.51上的表现也比基线Depth: 25.95, Dis: 11.46, L/R: 17.95有了显著提高。这种在多样化的空间任务中的一致性表明优化训练期间定位与推理之间的一致性不仅提高了推理任务中的定位性能还从根本上增强了模型的整体空间认知能力及其解决零样本设置下复杂关系模糊性的能力。表 2. OmniDrive-R1 在奖励设计和训练策略方面的消融研究。完整模型最后一行得益于两阶段训练策略、强化学习和结构化工具使用奖励的结合。这里的消融模型经过了 8 个周期的训练。表 3. 论文提出的方法与其他开源和专有的视觉语言模型VLMs以及专门的空间理解模型的比较。Yaw、Pixel、Depth、Dis、L/R 和 F/B 对应于六个空间推理任务。得分列代表这六项指标的平均性能。粗体最佳。下划线第二最佳。5. 结论本文提出了 OmniDrive-R1 来解决视觉推理不可靠的关键挑战特别是在自动驾驶AD中的对象幻觉问题。OmniDrive-R1 是第一个纯粹基于强化学习的框架通过 iMCoT 机制统一感知和推理使模型能够在推理过程中动态获取细粒度的视觉证据并利用其固有的接地能力而无需依赖外部检测模块。本文进一步引入了 Clip-GRPO这是一种无注释的过程级优化算法它使用基于 CLIP 的跨模态一致性作为接地奖励共同增强区域选择和推理可靠性。本文的 RLVR 数据生成管道将开放式驾驶问题转化为可验证的格式为开放世界驾驶任务中的稳定奖励计算提供了可扩展的基础。这些组件共同构成了一个具有更强解释性、改进的接地保真度和对先前未见过的视觉条件更优泛化的框架。OmniDrive-R1 在 DriveLMM-o1 上实现了最先进水平的性能将整体推理得分从 提高到 多项选择题准确性从 提高到 同时在 SURDS 上展示了有竞争力的零样本空间推理能力。未来的工作将扩展本文的方法到长时视频推理和多智能体场景本文的结果表明强化驱动的 iMCoT 为基于 VLM 的自动驾驶提供了一条有前景的道路。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取