2026/4/17 16:18:48
网站建设
项目流程
旅游订房网站开发需求文档,建公司的步骤,免费发软文的网站,铜仁公司做网站编者按#xff1a;十年深耕#xff0c;十篇精粹。数据已成为核心生产要素#xff0c;《大数据》见证技术突破与政策赋能的双向奔赴。本次甄选十篇文章#xff0c;涵盖高被引理论成果、政策落地研究与社会前沿热点#xff0c;既是学科发展的缩影#xff0c;更是产业实践的…编者按十年深耕十篇精粹。数据已成为核心生产要素《大数据》见证技术突破与政策赋能的双向奔赴。本次甄选十篇文章涵盖高被引理论成果、政策落地研究与社会前沿热点既是学科发展的缩影更是产业实践的指南。即日起逐篇推送邀您回溯十年积淀共探数据要素市场化、数智融合的未来新篇敬请关注。基于多模态大模型的具身智能体研究进展与展望摘 要 具身智能体指能够根据指令完成某种或多种任务并且具备与物理环境交互能力的智能实体。其在服务机器人、智能教育、辅助医疗等领域具有巨大的潜在应用是实现通用机器人的重要途径之一。随着多模态大模型的发展具身智能体具备了更强的语言理解、推理判断和环境感知能力极大地推动了该领域的发展。近年来具身智能体领域涌现出许多优秀的研究工作但缺乏系统的调查评述。为了帮助研究者更全面地了解这一领域对具身智能体的研究进行了深入调研与展望。首先介绍了多模态大模型其次回顾了常用数据集和用于构建具身智能体的物理载体。然后回顾了具身智能体的3个关键研究方向具身大模型、高级任务规划和低级动作控制。最后总结了具身智能体领域面临的挑战和存在的局限性并展望了未来的发展方向。该综述为研究者提供了有价值的参考旨在促进具身智能体领域的进一步发展与创新。关键词 具身智能体; 多模态大模型; 机器人; 视觉语言模型; 具身智能引用格式赵博涛, 亢祖衡, 瞿晓阳, 等. 基于多模态大模型的具身智能体研究进展与展望[J]. 大数据, 2025, 11(3): 108-138.Zhao B T, Kang Z H, Qu X Y, et al. Review and emerging trends of embodied agent based on multimodal large language models[J]. Big Data Research, 2025, 11(3): 108-138.0引言具身智能体是跨学科领域的重要研究方向具备与物理环境交互的能力通过传感器、执行器和物理形态与环境互动。具身智能体的研究范畴包括自主机器人、多模态感知、强化学习等具有在服务机器人、智能教育和医疗辅助等领域的应用潜力。其发展历史从人工智能早期探索至今早期研究集中在虚拟世界的计算推理能力而近期多模态大模型MLLM的出现为具身智能体的发展带来新突破。MLLM能处理多种数据类型实现深层次语义理解和跨模态推理提升模型在多模态任务中的表现。MLLM的代表模型包括CLIP、DALL-E等展现出环境感知、指令理解和推理判断能力为具身智能体发展注入新动力。具身智能体需具备环境感知、长程任务规划和短程动作控制能力MLLM在这些方面展现出优势推动具身智能体在复杂现实场景中的应用。本文全面综述基于MLLM的具身智能体包括多模态大模型发展现状、具身智能体数据集、物理载体、最新研究进展、高级任务规划应用、低级动作控制研究以及面临的挑战和未来发展趋势。1多模态大模型视觉语言模型通过联合学习图像和文本特征建立视觉与语言之间的关联应用于图像描述生成、视觉问答和图文检索等任务。常见的有视觉变换器ViT和对比语言-图像预训练CLIP模型以及BLIP-2、LLaVA、Flamingo、KOSMOS-1和KOSMOS-2等模型。这些模型大多依赖图文配对数据进行训练但存在数据获取困难和影响上下文处理能力的问题。国产Qwen-VL系列模型通过预训练和多任务训练提升性能MiniCPM系列实现边缘设备部署。同时提到了GPT-4o、Gemini-Pro-1.5、Claude 3.5-Sonnet等闭源大模型。2具身智能体领域主要数据集具身智能体领域中的关键数据集支持多模态、多任务的训练与评测覆盖视觉、语言、动作和环境交互等信息。Matterport3D数据集提供了RGB-D图像和全景视图支持机器人导航和环境理解。RoboNet数据集包含多种机械臂的操作数据Dex-Net专注于抓取任务提供物体模型和抓取策略数据。Ego4D是一个第一人称视角的视频数据集推动自我中心视频理解和具身智能研究。ALFRED数据集用于训练机器人执行基于自然语言指令的任务。随着具身智能领域的快速发展更多大规模、高质量的数据集如Open X-Embodiment、RoboMIND、ARIO和AgiBot World等涌现为通用机器人策略模型的训练与评测提供重要支持推动技术进步和通用人工智能机器人的发展。3物理载体具身智能体通过物理形态与环境交互以完成任务其物理载体包括机械臂、灵巧手、轮式无人车、无人机、四足机器人和人形机器人。机械臂广泛应用于工业和医疗具有多个关节和执行器依赖正逆运动学计算和动力学理论进行控制。灵巧手模拟人手精细运动具有多自由度和传感器适用于精密操作和微创手术。轮式无人车结构简单、能效高适用于工业自动化和自主导航。无人机具有高度灵活性用于数据采集和环境监测但受限于动态环境。四足机器人模拟动物运动适应复杂地形用于工业巡检和救援。人形机器人模仿人类动作适用于自然交互和执行人类环境任务。多模态大模型的应用提升了这些物理载体的交互能力、泛化能力和自主决策能力。4具身大模型研究进展具身智能体需具备视觉感知、指令理解和自我感知能力以执行复杂交互和动作策略。VLM虽支持视觉感知和语言理解但在感知自身状态和生成动作指令方面存在局限。具身大模型作为解决方案继承多模态大模型能力的同时能感知自身状态并生成动作策略。具身大模型研究进展显著如谷歌的RT-1模型通过端到端训练估计动作策略RT-2引入PaLM-E模型增强泛化能力RT-X在大规模数据集上训练提升性能RT-H模型通过层级查询串行执行任务。具身大模型结构与人脑信号处理方式相似通过高级皮层处理抽象任务传递至低级区域执行具体任务。主流框架通过多模态编码器映射信息大语言模型输出特征策略头输出动作参数。EmbodiedGPT利用ChatGPT生成子指令训练多模态大模型实现精确动作规划。RoboFlamingo验证微调预训练VLM的有效性GR-1和GR-2通过视频-文本数据预训练提升性能。还探索了强化学习与具身大模型的结合如SayCan模型和Q-Transformer。具身大模型训练依赖大量数据研究者提出应对数据不足的方法如AutoRT团队利用VLM和LLM生成任务和运动策略。SARA-RT提出线性复杂度自注意力机制提升推理效率RT-Trajectory引入RGB轨迹图提升泛化能力。尽管具身大模型为具身智能体实现提供技术路径但训练成本高主要聚焦于机械臂等操作领域推理速度尚未满足流畅动作执行需求。5高级任务规划在执行复杂任务时人类通过分解任务逐步完成具身智能体同样需要将高级任务分解为子任务以实现目标。具身大模型能够直接生成子任务执行的动作策略并预先定义子任务执行的工具或其他辅助元素。传统的高级任务规划依赖符号规划方法和搜索算法但在动态变化和复杂场景中存在局限性。多模态大模型结合视觉、语言和其他感知数据实现从感知、理解到执行任务的全流程能力通过链式思维等推理方法将高层次任务指令分解为逻辑步骤生成合理的行动计划适应动态变化的环境。多模态大模型在高级任务规划中展现出优势但也面临挑战如子任务分解的可行性、大模型处理长任务序列时的记忆问题或信息丢失、大模型的幻觉问题等。研究人员从不同方面进行探索包括提示工程、反馈优化、记忆或额外知识的引入、多智能体技术等。提示工程通过精心设计提示词提升模型在特定任务中的表现如将复杂任务分解转化为代码生成问题。反馈优化利用环境或用户的反馈信息提升具身智能体的高级任务规划能力实现闭环系统。记忆或额外知识的引入利用智能体自身的记忆或额外的知识提升任务规划的准确性。多智能体技术引入多个智能体使复杂任务能够被分解并分配给不同智能体协作完成。总之多模态大模型在具身智能体的高级任务规划中展现出潜力但仍面临诸多挑战需要从不同方面进行探索和优化。6动作控制具身智能体的动作控制包括机械臂动作、双足行走和灵巧手的控制策略。机械臂动作控制通过逆向运动学计算关节角度和运动路径实现物体抓取、移动和操作。研究中使用预定义工具、大语言模型与强化学习结合的方法以及模仿学习来训练动作策略。双足行走控制通过精确调控双足运动实现平稳行走和姿态平衡传统方法依赖动力学模型的力矩控制技术而深度强化学习逐渐成为主流。灵巧手控制通过精确调控机械手关节和手指实现灵活抓取和操作主要通过强化学习、模型驱动学习和模仿学习方法实现。多模态大模型的进步使得以灵巧手为载体的具身智能体逐步从理论走向实际应用。7挑战与机遇具身智能体领域面临统一评价体系的挑战现有评价体系零散且依赖仿真环境需推出全面评价体系以公平评估能力。高质量数据集的缺乏限制了发展人工遥操作和游戏环境数据收集是潜在解决方案。具身智能体需具备三维感知能力3D视觉语言模型训练是提升空间信息理解的方法。复杂任务规划方面大模型依赖统计概率缺乏因果关系捕捉需设计数据集和微调模型以增强能力。全身动作控制方面端到端具身大模型控制缺乏数据和涉及多自由度控制收集全身动作控制数据和融入物理规律是解决思路。算法效率和终端部署是大模型落地的挑战需在提升推理速度的同时维持高精度。反思与进化能力是具身智能体的重要挑战增量学习需平衡新旧数据和优化计算资源。随着研究者投入这些挑战将逐步克服推动技术发展和应用落地。作者简介赵博涛男平安科技深圳有限公司高级算法工程师主要研究方向为深度学习、语音算法以及具身智能等。亢祖衡男平安科技深圳有限公司高级算法工程师主要研究方向为人工智能、声纹识别、信号处理、音乐生成、大模型等。瞿晓阳男博士平安科技前沿机器学习算法分组负责人清华大学深圳国际研究生院校外导师中国科学技术大学先进技术研究院校外导师美国佛罗里达大学访问学者主要研究方向为机器学习、大数据、体系结构、人工智能、高性能计算与存储等。彭俊清男国家认证计算机系统架构设计师平安科技深圳有限公司资深经理高级人工智能算法研究员主要研究方向为架构设计、云平台、AI系统建设等。张旭龙男博士平安科技深圳有限公司高级算法研究员复旦大学计算机理学博士主要研究方向为语音合成、语音转换、音频驱动虚拟人生成、音乐信息检索以及机器学习和深度学习方法在人工智能领域应用担任清华大学深圳研究院以及中国科学技术大学先进技术研究院校外导师目前是IEEE、中国自动化学会以及中国计算机学会会员担任联邦数据与联邦智能专委会委员2023年入选上海市东方英才计划青年项目。王健宗男博士平安科技深圳有限公司副总工程师资深人工智能总监联邦学习技术部总经理智能金融前沿技术研究院院长。美国佛罗里达大学人工智能博士后美国莱斯大学和华中科技大学联合培养博士中国计算机学会资深会员中国计算机学会大数据专家委员会委员中国自动化学会联邦数据和联邦智能专业委员会副主任。主要研究方向为大模型、联邦学习和深度学习等。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】