2026/4/18 9:55:55
网站建设
项目流程
网站优化的监测评价,济南住宅与房地产信息网官方网站,鱼滑怎么制作教程,asp net网站开发论文#xff1a;EmbRACE-3K: Embodied Reasoning and Action in Complex Environments
1. 引言
研究背景
近年来#xff0c;视觉语言模型#xff08;Vision-Language Models, VLMs#xff09;在离线被动的理解任务中表现出色#xff0c;包括图像标注、视频摘要、视觉问答。…论文EmbRACE-3K: Embodied Reasoning and Action in Complex Environments1. 引言研究背景近年来视觉语言模型Vision-Language Models, VLMs在离线被动的理解任务中表现出色包括图像标注、视频摘要、视觉问答。然而当这些模型被应用于需要在线交互和主动场景理解的具身场景时其有效性却大打折扣。具身场景要求智能体以第一人称视角感知环境并通过每一次动作动态地影响后续的观察结果。这种动态、闭环的感知-动作循环对模型的推理和规划能力提出了更高要求。尽管GPT-4o、Gemini 2.5 Pro、Qwen2.5-VL等先进模型在静态视觉和语言信息对齐方面表现出色但在开放环境交互中它们在空间推理和长期规划方面却存在明显局限。研究目的本研究旨在填补现有VLMs在具身推理方面的研究空白通过构建一个大规模、高质量的具身推理与行为数据集——EmbRACE-3K推动该领域的研究发展。具体目标包括提供丰富多样的训练数据EmbRACE-3K数据集将包含3000多个由语言引导的任务这些任务位于利用虚幻引擎和UnrealCV-Zoo框架构建的多样化、逼真的环境中。任务涵盖导航、物体操作和多阶段目标执行等广泛具身挑战为模型提供丰富的多模态交互数据。支持多模态学习任务数据集将提供详细的文本标注、动作标注、环境状态标注等多模态信息支持具身推理、行为生成、多模态对话建模等多种学习任务。建立评估基准利用EmbRACE-3K数据集建立一个基准用于从探索、动态空间语义推理和多阶段目标执行三个关键维度评估VLMs的具身推理能力。推动模型改进通过两阶段微调监督微调SFT和强化学习RL方法展示EmbRACE-3K数据集在提升VLMs具身推理能力方面的有效性为未来研究提供参考和借鉴。相关工作EmbRACE-3K通过在照片级虚幻引擎环境中构建一个完全逐步、时空grounded和闭环的评估框架。每个决策步骤不仅与以自我为中心的观察和有根据的行动配对还与捕捉代理意图和中间思维过程的显式推理注释配对。Fidelity Level含义典型环境Game-based基于游戏引擎的简化图形如Minecraft、HabitatOctopus, MCUReal-world来自真实世界的图像/视频HabitatNav, MindCubePhoto-Realistic由高质量渲染引擎生成环境视觉效果接近真实照片ALFRED, EmbRACE-3K2. 三大难题下面揭示了VLM在具身环境中的基本局限性“短视探索”现象AI在主动探索任务中模型倾向于关注眼前的视觉线索缺乏制定长期目标的能力即常表现出“短视”行为。比如面对“找到红色汽车并走近它”的任务AI可能只向左看一眼没看到目标就立即转向缺乏系统性的搜索策略。这种行为源于AI训练时从未学会如何主动寻找信息。“动态空间语义漂移”由于缺乏以自我为中心的姿势意识随着主体的移动对空间关系的解释变得不稳定。在“走近第二个垃圾桶”任务中智能体最初会对空间线索做出正确反应但随着视野的变化而无法适应。顺序和方向术语如“第二”和“前面”与主体的当前方向分离导致连续的语义错位。“目标遗忘”现象AI在执行多阶段任务时容易遗忘目标。例如“先走到垃圾桶旁边再走向红色汽车”AI可能完成第一个目标后完全忘记了第二个目标。这反映了AI在长期记忆和目标维护方面的根本缺陷。3. 数据集构建EmbRACE-3K中的所有数据都是在UnrealCV-Zoo框架中收集的该框架扩展了具有第一人称控制和低级别API访问的Unreal引擎。该数据集旨在捕捉交互式具体任务所需的完整感知推理动作循环记录了人类在各种环境中如何观察、思考和行动。整个过程分为四个阶段环境采样和姿态选择在100个逼真的虚拟环境中选择24个多样化的地图利用自动化脚本和手动检查相结合的方式采样智能体的多样化姿态并记录每个姿态的6-DoF坐标和第一人称视角的RGB图像。任务指令生成为每个选定的智能体姿态检索半径1000米内的对象级元数据并将其与第一人称视角的RGB图像一起提供给Gemini 2.5 Pro模型以生成自然语言任务指令。指令类型包括基本型、探索型、动态空间语义型、多阶段型和交互型五种。生成的指令需要经过人工审核。基本目标清晰可见可立即到达需要最少的推理。探索目标最初不在视野中提示代理执行主动搜索。动态空间语义使用相对或顺序空间引用来描述目标。多阶段任务要求按特定顺序完成一系列子目标。交互任务需要直接操作例如打开门、拾取或放下物体。人工演示和轨迹捕捉由人类玩家执行每个生成的任务指令并记录所有第一人称视角的帧、执行的动作和精确的姿态轨迹逐步推理注释Gemini接收任务指令、完整的自我中心视图和整个动作轨迹推理所选动作的原因和意图提供决策层面的监督。为了确保高质量和可解释的数据应用了一系列后处理和分析步骤来细化原始数据集过滤掉超过32个步骤的轨迹确保任务之间的序列长度一致。所有指令分为五种高级任务类型基本、探索、动态空间语义、多阶段和交互交互类细分为打开门、拾取并放下对象4. 模型微调实验4.1 微调选取Qwen2.5-VL-7B作为基础模型通过监督微调SFT和强化学习RL相结合的方式进行微调以评估EmbRACE-3K数据集在提升模型具身推理能力方面的有效性逐步解释该图b中GRPO强化学习的工作机制1. 输入阶段Prompt 构造System prompt定义系统角色或总体指令Task prompt是具体场景任务例如「走到红色门前并打开它」。2. 生成阶段候选动作组Group SamplesPolicy Model当前策略模型 πθold接收 prompt 后针对同一问题 q 生成一组候选响应 {o₁,o₂,…,oG}。每个响应可以是一个 “thinking → action” 序列即智能体的推理过程与执行动作。多个候选的生成对应 GRPO 中的 “Group” 概念同一 prompt 下生成多个输出样本。3. 奖励计算阶段每个候选响应都会被赋予奖励 rᵢ由论文中提到的基于规则的奖励函数计算例如Accuracy Reward准确性奖励判断行动是否完成目标任务如成功导航到目标。Format Reward格式奖励评估输出是否符合规定的输出结构例如 JSON 格式或 “thinking→action” 规范。这些奖励形成集合 {r₁,r₂,…,rG} 对应生成样本组 {o₁,o₂,…,oG}。4. 相对优势估计Group Relative Advantage 求取每个样本的优势Airi−mean({r1,r2,…,rG})std({r1,r2,…,rG})A_{i}\frac{r_{i}-\text{mean}(\{r_{1},r_{2},\dots,r_{G}\})}{\text{std}(\{r_{1},r_{2},\dots,r_{G}\})}Aistd({r1,r2,…,rG})ri−mean({r1,r2,…,rG})这一步是GRPO 的核心利用组内平均奖励作为基线baseline代替传统 PPO 中的价值网络从而只需策略模型与参考模型两部分。5. 策略更新阶段 通过最大化以下目标函数来训练更新的模型Policy Modelπθ优化目标其中G6ϵ and β 是超参数q是给定条件策略模型和参考模型都基于这个条件生成响应Reference Model用来约束策略更新确保新策略不会过度偏离参考模型的分布经过优化后得到新的 Policy Model即经过 GRPO 微调后的策略。6. 输出与更新新的 Policy Model 性能更优能够生成更合理的“thinking action” 序列从而提升智能体在复杂环境下的推理与执行能力。整体流程理解输入 prompt生成多组思考-行动候选计算奖励准确性 格式等基于 GRPO 相对优势更新策略得到改进后的 Policy Model。4.2 实验设置及结果实验设置基准测试中定义六种任务类型基本、探索、动态空间语义、多阶段、交互-开门、交互-拾取和删除测试prompt由任务指令、当前场景的简要描述和之前执行的操作历史组成。对于视觉输入提供当前时间步的第一人称自我中心视图以及最近的五个帧和初始帧。Qwen2.5-VL-sft-rl我们完全微调的变体从EmbRACE-3K上的sft开始并使用强化学习和轨迹级奖励整形进行进一步训练。-Qwen2.5VL-sft-only一个仅在我们的数据集上使用sft训练的模型没有额外的RL优化。Qwen2.5-VL-no thinking一种通过SFT训练的消融变体其中所有思维链推理注释都从输入中删除。该模型分离了显式推理监督对决策绩效的贡献评价指标成功率SR此指标衡量代理成功完成的任务比例目标距离误差GDEagent的最终位置和指定目标之间的欧几里德距离对于多阶段任务GDE被计算为到每个子目标的距离之和。按路径长度加权的基于步骤的成功SSPL评估已经成功episode的效率步骤steps该指标报告了agent每个episode采取的离散操作例如向前移动、向左转弯的平均数量无论成功还是失败反映了行为成本.超时率TR超时率衡量代理在未完成任务的情况下超过最大步数阈值例如32步的事件比例。高TR表示经常效率低下或无法适当终止5、总结这项工作介绍了EmbRACE-3K这是一种新的数据集和基准测试旨在解决当前VLM在嵌入式交互场景中的局限性。EmbRACE-3K以多样化的环境和多动作为特色在开放环境中促进动态、目标导向的研究。高质量的CoT注释通过将推理纳入空间规划来增强代理行为。这种方法弥合了教学任务和视觉输入之间的差距使决策更加稳健和合乎逻辑。基准测试实验揭示了空间推理、长期规划和因果理解方面的重大挑战强调了数据集在推进具身推理方面的价值。值得注意的是与GPT-4o和Gemini 2.5 Pro相比使用EmbRACE-3K对Qwen2.5-VL-7B等VLMs进行微调可以获得更优的性能。通过实现时间泛化并将感知与语言引导行为相结合EmbRACE-3K为开发智能代理奠定了基础