昆山网站建设哪家比较好wordpress search标签页
2026/4/18 9:19:33 网站建设 项目流程
昆山网站建设哪家比较好,wordpress search标签页,珠珠宝宝网网站站建建设设,律师免费咨询2024年10月#xff0c;Physical Intelligence#xff08;以下简称“PI”#xff09;正式发布用于通用机器人控制的VLA模型π02025年1月#xff0c;PI推出新型动作分词器FAST#xff0c;并借助该分词器训练出了π0-FAST 模型。2025年2月#xff0c;PI发布了分层交互式机器…2024年10月Physical Intelligence以下简称“PI”正式发布用于通用机器人控制的VLA模型π02025年1月PI推出新型动作分词器FAST并借助该分词器训练出了π0-FAST 模型。2025年2月PI发布了分层交互式机器人系统-Hi Robot让机器人学会更深入地倾听与思考。2025年4月PI发布了具身智能VLA模型π0.52025年5月PI 提出 “知识绝缘 VLA”Knowledge-Insulated VLA,π0.5-KI新范式 —— 通过将动作专家模块模块化“嫁接”至 VLM 架构同时避免侵蚀 VLM 预训练阶段积累的大规模语义知识最终达成 “快速训练效率、优异语义泛化能力与高精度运动控制” 的三重技术目标。2025年6月PI开发了实时动作分块算法Real-Time Action Chunking。该算法能够在确保动作连续性的前提下实现实时执行并且适用于任何基于扩散或流匹配的VLA模型包括π0.5无需在训练阶段进行任何改动。2025年11月PI发布了具身智能VLA模型π0.6同时推出一种名为RECAP基于优势条件策略的经验与修正强化学习的方法并利用此方法训练出来了新的π*0.6模型。2025年12月PI开发了一种利用人类第一视角数据改进模型的方法并且在研究中观察到人机技能迁移的涌现现象。一、π0模型1. 模型架构2024 年10月 Physical Intelligence以下简称“PI”正式发布机器人领域端到端VLA模型π0 它是一个单一的、稀疏的混合专家MoETransformer模型内部包含两套独立的参数权重相当于一个模型内有两个分管不同任务的“专家”模块。π0模型架构示意图1VLM专家模块—— 其架构与参数初始化直接来源于谷歌开源的PaliGemma模型采用多查询注意力机制。该模块主要由视觉编码器SigLIP-400M与语言模型Gemma-2B构成总参数量约30亿3B。在π0 中这些预训练权重并非被冻结调用而是作为可训练参数被集成到统一的混合专家Transformer架构中与动作专家模块一同进行端到端的训练。PaliGemma模型架构1动作专家Action Expert模块是模型内部另一套独立的、规模较小的参数集底层架构为300M的Gemma模型变体使用全双向注意掩码机制专门负责生成机器人动作。为了提升推理速度动作专家模块在推理阶段需要执行多次前向传播PI对动作专家模块的规模进行了缩减将其配置参数调整为 {特征维度 1024多层感知机维度 4096}最终该模块的参数量约为300M。π0架构灵感来源来自Transfusion 它使用多个目标训练单个Transformer。其中对应于连续输出的 Tokens 通过流匹配损失监督对应于离散输出的 Tokens 通过交叉熵损失监督。π0 团队在继承这一核心设计的基础上针对机器人操控任务的特性进行了关键改进为机器人任务了专属Token包括本体感知状态 Token 与动作 Token配置一组独立的权重参数集显著提升模型对连续动作的建模精度与任务适配性。2.π0工作流程1Token 统一编码所有输入模态图像序列、语言提示、机器人本体感知状态、含噪动作片段被转化为统一维度的Token 序列实现多模态输入的格式对齐。2稀疏路由分配通过稀疏路由机制图像与文本Token 被分配至VLM 专家模块机器人本体状态与含噪动作 Token 被分配至动作专家模块。3跨专家交互融合两个专家模块的Token 表征仅在 Transformer 的共享自注意力层中实现信息交互与融合无需额外的跨模态融合层。既保证了多模态信息的高效互通又通过权重分离避免了视觉语言任务与机器人动作任务之间的训练干扰。4动作分布生成动作专家以融合表征为输入依托条件流匹配技术建模连续动作的概率分布自回归地生成长度为H50 的动作序列直接驱动机器人完成复杂灵巧任务。3. π0模型与PaliGemma模型的区别π0 遵循PaliGemma VLM的设计但存在以下区别为机器人专用的Token包括状态向量和动作向量)增加了额外的输入和输出投影层增加了一个额外的多层感知机MLP用于融入流匹配的时间步信息为动作专家配备了一套规模更小的、独立的权重参数。标准的PaliGemma 架构的输入仅包括图像和语言。π0 在此基础上增加了用于机器人本体感知状态和含噪声动作块的输入接口。其中感知状态输入通过一个线性投影层映射至Transformer 的嵌入维度。含噪声的动作块首先通过一个多层感知机MLP映射到Transformer的嵌入维度此过程同步整合了流匹配的时间步信息从而为每个未来时刻的动作生成一个对应的输入Token。在Transformer内部这些动作Token的数量与预测时域H严格相等任务中设定H50。模型最终仅提取这H个动作Token所对应的输出表示并通过一个线性投影层将其解码为去噪后的精确动作序列。4. 预训练 后训练微调在训练策略上π0 模型采用了预训练 后训练微调的模式 —— 先在多样性的大规模数据上进行预训练再用高质量机器人数据进行微调从而达到所需的精细控制能力。预训练阶段的目的是训练一个表现出广泛功能和泛化能力的基础模型。后训练阶段的目的则是基于高质量的精选数据训练出一个适应特定下游任务的模型。PI研究中分别使用少量到中等量数据进行高效的后训练以及使用较大数据集进行高质量的后训练完成诸如洗衣折叠和移动操作等复杂任务。π0模型的预训练和后训练1预训练阶段在预训练阶段数据集需覆盖多样化任务且在每项任务下都要包含多样化的行为模式使模型构建跨任务、跨本体的通用物理理解与动作生成范式。PI的预训练数据是采用了一个混合数据集该数据集包含开源数据集OXE、DROID和Bridge以及PI自己采集的真机数据涵盖7种机器人本体和68项任务数据总时长超过1万小时。。其中混合数据集中有9.1%来自开源数据集。这些开源数据集涵盖了广泛的物体和环境满足了数据多样性的要求。其中数采任务中的机器人通常配备一到两个摄像头并采用低频率控制频率在2到10 Hz之间。另外为了学习灵巧且更复杂的任务PI还使用了自采的数据集总计903M时间步长的数据其中106M步来自单臂机器人797M步来自双臂机器人。训练方式虽然π0 模型内部有两组独立参数VLM专家和动作专家但在预训练阶段它们从未被分开或单独训练而是作为一个不可分割的整体模型进行端到端的联合训练。2后训练阶段后训练的目标则是让模型能够有效支持完成具体的下游任务如叠衣服、清理餐桌等复杂的灵巧任务。在后训练阶段PI使用一个较小的、任务特定的数据集对模型进行微调使其专门适应特定的下游应用。不同的任务需要的数据集差异很大—— 完成最简单的任务仅需5小时的数据微调而最复杂的任务则需要100小时或更多的数据。参考资料1.论文π0: A Vision-Language-Action Flow Model for General Robot Controlhttps://www.physicalintelligence.company/download/pi0.pdf2.多模态PaliGemma 2(含1代)Google推出的基于SigLIP和Gemma 2的视觉语言模型https://blog.csdn.net/v_JULY_v/article/details/143489879二、π0-FAST 模型1. 为什么要引入FASTTransformer通过学习从输入Token序列到输出Token序列的映射来解决问题。原则上任何可被分词为离散单元的数据包括机器人动作都可由此类序列模型处理。然而分词方式的选择从根本上决定了模型的学习上限与能力边界。当前大多数VLA模型仍局限于简单的低频控制任务这在采用自回归预测的VLA模型中尤为突出。其根本瓶颈在于动作表示形式这些模型通常将连续的机器人动作空间进行简单地离散化分桶即每个动作维度、每个时间步都被映射为一个离散的Token。这种表示严重损失了精度与连续性使其天然难以扩展到需要高频、精细控制的灵巧操作任务。相比之下基于扩散模型或流匹配的方法如π0 所采用能直接建模连续动作分布在灵巧性与精度上表现更优但其训练过程通常计算代价高昂耗时漫长。那么是否存在一种折衷方案我们能否找到一种动作表示方法使其既能保持连续方法的灵巧性与精度又能像离散Token一样支持高效的自回归训练为此Physical Intelligence团队联合斯坦福大学与加州大学伯克利分校提出了一种新型的时间序列压缩动作分词器FASTFrequency-space Action Sequence Tokenization。它旨在通过对连续动作进行高效、保真的压缩编码使自回归VLA模型能够通过简单的“下一个Token”预测目标直接训练出适用于高频率、高灵巧度机器人控制任务的策略。FAST分词器2. FAST是什么1FAST工作原理FAST即频率空间动作序列分词是一种用于高频机器人控制数据的动作分词器。它通过使用离散余弦变换DCT和字节对编码BPE的协同压缩流程将原始动作序列高效编码为少量密集的Token。a.离散余弦变换DCTDCT是一种将信号从时域转换到频域的数学工具。它将连续的动作信号分解为不同频率的余弦分量之和低频分量捕捉动作的整体轮廓与平滑趋势高频分量则编码动作中的快速变化与细节。由于机器人动作在时间上通常连续平滑其能量主要集中在低频部分因此DCT能够仅用少量主要系数来高保真地表示整个信号实现高效压缩。与需要训练的学习型方法如向量量化不同DCT是一种无需训练、计算高效的解析方法。b.DCT与BPE的协同压缩流程在实际压缩中首先对动作块应用DCT将其转换到频域然后通过仅保留最重要的系数舍弃微小的高频噪声实现有损、高压缩比的初步压缩。随后字节对编码BPE作为一种高效的无损字典压缩算法对量化后的DCT系数序列进行进一步压缩将其转化为紧凑的离散Token序列。DCT和BPE二者协同最终将原始动作块压缩至仅需 30至60个Token相比此前的动作分词方法实现了 10倍的压缩率从而为自回归VLA模型提供了既紧凑又保真的动作表示。FAST工作原理2FAST技术创新点a. FAST 设计灵感源自JPEG 图像等连续数据压缩方法用“压缩精华”的思路表示动作在精度和训练速度上取得了最佳平衡。b. FAST统一了语言与动作的“数据类型”让AI模型能更顺畅地运用已有知识来理解和执行复杂任务。3. 实验效果与局限性1实验效果PI 团队通过引入创新的 FAST 分词器成功训练出了新一代自回归 VLA 模型 ——π0-FAST。该模型继承了 π0的整体架构与训练数据通过 FAST 分词器将连续动作离散化为 token 后将动作生成范式从流匹配转换为自回归 token 预测其核心突破在于 FAST 分词器对连续动作的高效、高保真表示。实验表明与传统的“分箱离散化” 方法相比FAST 分词器带来了质的飞跃。π0-FAST不仅能胜任传统分箱类离散化方法无法处理的高频灵巧操作任务而且实现了与流匹配模型相媲美的操作精度。与此同时凭借自回归架构的效率优势在同等任务性能下其训练速度相比流匹配方法提升了 5 倍真正实现了性能与效率的高效平衡。π0与π0-FAST训练迭代速度对比2局限性采用FAST 分词器的自回归 VLA 模型 π0-FAST当前核心局限性在于推理速度显著慢于基础版 π0模型 —— 其自回归解码机制与 π0的流匹配解码方式相比效率存在明显差距。具体来看在NVIDIA 4090 GPU 环境下π0 流匹配 / 扩散路线预测一秒钟动作片段仅需 100 毫秒而 π0-FAST自回归路线 完成相同任务的推理时间约为 750 毫秒。这一差距主要源于两方面核心原因一是解码步骤差异π0-FAST 需自回归解码 30-60 个动作 token而 π0 仅需 10 个扩散步骤二是模型主干负载不同π0-FAST 依赖 20 亿参数的完整语言模型主干执行自回归解码而 π0 采用的是 3 亿参数的 “动作专家” 模型计算开销更轻。尽管自回归VLA 模型的推理提速仍是亟待突破的关键难题但在语言建模等相关领域业界已积累了丰富的自回归 Transformer 快速推理研究成果 —— 这些成熟的技术路径与优化经验有望为 VLA 模型的推理效率升级提供重要参考与实践借鉴。参考资料1.FAST: Efficient Action Tokenization for Vision-Language-Action Modelshttps://arxiv.org/pdf/2501.097472.自回归版π0-FAST——打造高效Tokenizer比扩散π0的训练速度快5倍但效果相当(含π0-FAST源码剖析)https://blog.csdn.net/v_JULY_v/article/details/145475733三、分层交互机器人系统Hi Robot当你对机器人说“如果你有火腿或烤牛肉能不能为我的朋友做一个包含其中一种的单独三明治”——这要求机器人不仅需要理解语言的字面含义更要能够将指令置于当前的物理与任务上下文中并灵活组合已有的基础技能例如“拿起烤牛肉”来完成这项新颖的任务。如果机器人随后收到纠正与反馈如“不是那样做的你得蹲得更低否则你会一直错过”它还必须能够动态地将这些信息整合到正在进行的任务执行中实时调整行为。这一挑战让人联想到Kahneman所提出的 “系统1”与“系统2”认知双过程理论“自动化”的系统1对应于能够通过触发预先学习的技能来执行简单指令的策略而更具“深思熟虑”的系统2则涉及更高层次的推理负责解析复杂的长周期多步骤任务、解读反馈并规划和决策合适的行动方案。以往关于机器人指令执行的研究大多集中在原子化的简单指令上主要触及了“系统1”级别的自动化行为。为了支持机器人完成上述需要复杂推理、高度适应能力的任务Physical Intelligence (PI) 开发了一个名为 分层交互机器人的系统 —— Hi Robot。该系统通过引入基于VLM的分层推理机器人控制系统旨在解决复杂提示和动态反馈所要求的更精细、更深层的推理问题。1.Hi Robot工作原理Hi Robot 系统采用 “系统 1 - 系统 2” 分层架构两大核心模块分工明确、协同工作1高层推理模块系统 2由一个VLM模型构成通过 “自我对话”进行复杂任务和语言交互的推理。在工作任务上负责处理开放式复杂指令、整合基座摄像头与腕部摄像头采集的多模态图像信息同时解读任务执行过程中的动态反馈最终将复杂任务拆解为底层可执行的简单语言指令输出至底层执行模块。2底层执行模块系统 1由一个VLA 模型构成例如π0 负责精准响应高层模块输出的底层可执行语言指令高效生成连续动作指令驱动机器人完成具体操作同时可根据任务需求选择性输出语言响应。HiRobot系统工作流程Hi Robot的两个模块以不同频率运行低级执行过程以较高频率生成动作序列块而高级推理过程则被以较低频率地调用——既可在设定时间后触发也可在接收到新的语言反馈时启动。因此高层推理本质上是在向低层执行“传达指令”将复杂的提示与交互分解为可转化为具体动作的、可执行的小单简短指令。总之Hi Robot通过使用VLMs进行高层次推理然后让VLA做低层次任务执行不仅使得机器人能够处理比 “现有端到端指令跟随系统” 更复杂的提示还能在任务执行全程中融入实时反馈进一步提升决策与执行的准确性。2.模型架构与训练在PI的方案中Hi Robot的两个分层模块统1底层执行与系统2高层推理以同一基础VLM模型PaliGemma-3B VLM为起点。系统1采用 π0 VLA模型其训练方式是在 PaliGemma-3B 基础上进行微调并增加一个用于生成连续动作的“动作专家”流匹配模块系统2的训练方式是在PaliGemma-3B VLM的基础上使用专门构建的“技能-指令”对话数据进行监督微调。训练数据类型为由人工标注的技能片段和VLM合成的自然语言指令构成的元组。其核心目标是让模型学会高层任务分解与规划即根据视觉观察和开放式用户指令生成具体的低层语言命令。Hi Robot系统数据收集与训练PI 团队在三类机器人平台上对该系统进行了实测验证涵盖单臂机器人、双臂机器人及双臂移动机器人。实验结果显示该系统可稳定胜任清理杂乱桌面、制作三明治、超市购物等多场景复杂任务。参考资料1.Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Modelshttps://arxiv.org/pdf/2502.194172.Hi Robot——大脑加强版的π0基于「VLM的高层推理 VLA低层任务执行」的复杂指令跟随及交互式反馈https://blog.csdn.net/v_JULY_v/article/details/147090612π0 系列技术解读未完待续后续将继续分享π0.5 模型升级亮点、“知识绝缘 VLA”π0.5-KI 核心设计以及实时动作分块算法的实现逻辑等相关内容。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询