htm网站开发 实训佛山免费建站平台
2026/4/18 7:21:30 网站建设 项目流程
htm网站开发 实训,佛山免费建站平台,wordpress挖,外贸公司网站模板0. 引言 在人工智能领域#xff0c;空间智能一直是研究的前沿方向。李飞飞团队提出的Marble模型虽然在空间智能方面取得了突破性进展#xff0c;但其应用场景仍局限于静态环境#xff0c;本质上属于3D世界模型的范畴。相比之下#xff0c;4D世界模型作为空间智能的演进形态…0. 引言在人工智能领域空间智能一直是研究的前沿方向。李飞飞团队提出的Marble模型虽然在空间智能方面取得了突破性进展但其应用场景仍局限于静态环境本质上属于3D世界模型的范畴。相比之下4D世界模型作为空间智能的演进形态通过引入时间维度能够理解和建模动态场景的时空变化在数字内容创作、游戏开发、自动驾驶仿真以及具身智能等领域展现出巨大的应用潜力。然而当前的4D世界模型训练方案正面临严峻的扩展性瓶颈。传统方法通常需要成对的视频数据即输入给模型的原视角视频以及作为监督信号的时间同步的新视角目标视频。这种特殊的数据需求使得训练难以扩展到海量数据上。现有研究主要受困于两个核心问题首先是多视角数据难以扩展现有的多视角数据通常在静态场景中多次采样或者使用多相机直接采集或者在仿真引擎中渲染这些方法要么无法扩展到动态场景要么采集成本高昂限制了训练数据的泛化性难以触及真实的开放场景。其次是预处理效率低下一些研究尝试通过离线方式对单目视频构建训练数据对但这会引入额外的计算和存储负担使得训练变得异常僵化无法灵活扩展到互联网级的海量数据上。这些限制构成了重重壁垒将互联网上最廉价、最丰富的资源——开放场景单目视频数据阻隔在外。如何突破这一瓶颈成为4D世界模型发展的关键问题。目前代码还没开源Github,但是非常值得关注。1. NeoVerse用单目视频突破扩展性瓶颈2026年1月中国科学院自动化研究所与CreateAI联合推出了NeoVerse这是一个多功能的4D世界模型能够实现4D重建、新轨迹视频生成以及丰富的下游应用。NeoVerse的出现标志着4D世界模型从实验室精雕细琢向大规模数据驱动的范式转移。NeoVerse的核心理念在于使整个训练管线能够扩展到多样化的野外单目视频。与传统方法不同NeoVerse彻底抛弃了昂贵的多视角数据和沉重的离线预处理直接拥抱互联网上的海量单目视频首次利用100万段开放场景单目视频进行大规模训练。这种方法不仅大幅降低了数据采集成本更重要的是使得模型能够学习到更加多样化和真实的场景表示从而在泛化能力上实现了质的飞跃。NeoVerse采用了重建-生成混合式架构首先重建出4D表示然后将其用于生成模型作为新视角的几何引导。这种架构设计使得NeoVerse能够在保持精确相机可控性的同时实现高质量的视频生成。在标准重建和生成基准测试中NeoVerse达到了最先进的性能水平同时在运行速度上也有显著优势。2. 前馈式4DGS重建的创新2.1 免位姿的高效重建底座要实现训练管线的规模化扩展第一步必须解决重建速度问题。NeoVerse提出了一种免姿态输入的前馈式4D高斯溅射4DGS模型这是整个系统的核心基础。与传统针对专一场景进行迭代优化的重建方法不同NeoVerse基于视觉几何基础变换器VGGT进行动态化和高斯化改进。这种前馈式重建无需复杂的离线预处理一次预测即可在几秒内完成动态场景的4D建模。传统的3D高斯溅射技术已经在静态场景重建中展现出强大的能力但将其扩展到动态场景面临诸多挑战。4D高斯溅射通过在三维空间基础上引入时间维度能够同时捕捉场景的空间几何和随时间变化的动态信息。每个4D高斯基元不仅包含三维空间位置信息还包含一个额外的时间维度这些高斯基元由各向异性椭圆参数化可以在空间和时间上任意旋转和变形。2.2 双向运动建模捕捉时间的双向流动NeoVerse的一个关键创新在于引入了双向运动编码分支。传统的单向运动建模只能捕捉从当前时刻到下一时刻的运动信息而NeoVerse通过交叉注意力机制分别提取前向和后向的运动特征这种设计有利于精准预测高斯基元的双向线速度和角速度从而实现相邻时间戳之间的中间时刻高斯插值渲染。具体来说对于每一帧的特征NeoVerse沿时间维度将其复制并切分成两部分。其中前者作为查询特征后者作为键和值来获取前向运动特征反之则得到后向运动特征。这种双向建模机制使得模型能够更准确地理解物体的运动轨迹特别是在处理复杂的非线性运动时表现出色。通过预测双向的线速度和角速度NeoVerse能够在任意两个相邻帧之间进行平滑的插值这对于生成高质量的慢动作视频和子弹时间效果至关重要。2.3 4D高斯基元的完整定义NeoVerse定义的4D高斯基元包含了丰富的属性信息。除了传统3D高斯的属性——三维位置、不透明度、朝向、大小和球谐系数之外NeoVerse还引入了动态属性双向运动建模预测的前后向线速度和角速度以及4DGS常用的生命周期参数。这些属性共同构成了一个完整的4D表示能够准确描述场景中每个点在空间和时间上的变化。其中三维位置是通过预测深度和相机参数将像素深度反向投影到三维空间获得的动态属性由双向运动特征预测其他属性则由帧特征预测。这种分层的属性预测策略使得模型能够更好地解耦静态几何信息和动态运动信息从而提高重建的准确性和鲁棒性。3. 训练创新单目退化模拟机制3.1 稀疏帧重建与密集帧渲染为了进一步加快重建速度从而提升训练效率NeoVerse提出了稀疏帧重建密集帧渲染策略。在少量稀疏关键帧输入的条件下通过高斯场插值渲染出连续密集的视频画面。对于一个非关键帧时间戳NeoVerse将其最近的关键帧时间戳下的高斯基元转移到目标时刻。为了处理非均匀的关键帧间隔NeoVerse归一化时间距离来对不透明度的衰减进行建模。生命周期参数约束在特定范围内当其接近于1时不透明度趋于1否则不透明度会快速衰减。这种设计使得模型能够在保持重建质量的同时大幅提升训练效率。3.1 单目退化模拟破解新视角监督难题在单目视频训练中最大的挑战是缺乏新视角的监督信号。NeoVerse并没有尝试寻找完美的数据而是反其道而行之引入了单目退化模拟机制。在训练的每一次迭代中NeoVerse并不是简单地从输入视角渲染而是刻意模拟了单目重建在不同视角下的退化规律从而建立起一套自监督训练范式。NeoVerse采用了两种主要的退化模拟技术。第一种是高斯剔除用于模拟相机移动时可能出现的遮挡与视场丢失。通过剔除部分4D高斯基元模型被迫在信息不全的情况下学习维持物体的几何完整性。第二种是平均几何滤波用于模拟深度不连续的飞行边缘像素。除了遮挡之外另一种典型的退化模式是深度不连续的飞行边缘像素。NeoVerse通过在采样的新视角上渲染深度图并作平均滤波再根据滤波后的深度值调整每个高斯基元的位置。当调整位置后的高斯重新渲染回原视角则能模拟出现飞边现象。当增大平均滤波核半径时则能模拟出更大范围的空间畸变。3.2 退化渲染引导NeoVerse通过控制分支将模拟的渲染结果注入视频生成模型。这些渲染结果包含渲染图像、深度、不透明度图以及相机位姿的Plücker嵌入。在训练过程中NeoVerse仅训练控制分支同时冻结视频生成主干模型。这种设计不仅可以提升训练效率更重要的是使其能够支持步数蒸馏LoRAs以加速生成过程。这种架构设计使得NeoVerse能够充分利用现有的强大视频生成模型同时通过几何引导确保生成结果的空间一致性。4. 总结与展望NeoVerse的出现标志着4D世界模型从实验室精雕细琢向大规模数据驱动的范式转移。它通过攻克核心的扩展性瓶颈构建了一套能够无缝适配互联网单目视频的训练管线。这种对海量开放场景数据的深度挖掘不仅让NeoVerse在泛化能力上实现了质的飞跃更使其成为了支撑自动驾驶、具身智能及内容创作等多元领域的通用4D世界模型底座。NeoVerse的核心创新在于其独特的单目退化模拟机制。通过在训练过程中刻意模拟单目重建在不同视角下的退化规律NeoVerse建立起了一套自监督训练范式使得模型能够从廉价的单目视频中学习到高质量的4D表示。这种方法不仅解决了多视角数据难以扩展的问题更重要的是它为4D世界模型的大规模训练开辟了新的道路。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询