2026/4/18 8:59:17
网站建设
项目流程
做网站建设客户从哪里找,云南网站建设首选公司,站内关键词自然排名优化,网站开发 0755OmniVinci 是一个旨在构建全模态 LLM 的系统性方案#xff0c;它能够联合感知图像、视频、音频和文本。英伟达推出的OmniVinci开源全模态潜在逻辑模型#xff0c;为提升机器智能跨模态感知能力带来新突破。该模型在架构上创新提出OmniAlignNet、时间嵌入分组、约束旋转时间嵌…OmniVinci 是一个旨在构建全模态 LLM 的系统性方案它能够联合感知图像、视频、音频和文本。英伟达推出的OmniVinci开源全模态潜在逻辑模型为提升机器智能跨模态感知能力带来新突破。该模型在架构上创新提出OmniAlignNet、时间嵌入分组、约束旋转时间嵌入三项关键技术增强多模态嵌入对齐与时间信息编码。同时引入数据整理和合成流程生成大量对话数据。实验表明不同模态相互促进模型在多个跨模态任务上性能显著优于Qwen2.5-Omni且训练样本量大幅减少。此外还在机器人、医疗等下游应用中展现出全模态优势。相关链接模型https://huggingface.co/nvidia/omnivinci论文https://arxiv.org/pdf/2510.15870代码https://github.com/NVlabs/OmniVinci介绍提升机器智能需要发展出跨多种模态的感知能力就像人类感知世界一样。英伟达推出的 OmniVinci 旨在构建一个强大的开源全模态潜在逻辑模型 (LLM)。论文仔细研究了模型架构和数据整理方面的设计选择。在模型架构方面提出了三项关键创新OmniAlignNet用于在共享的全模态潜在空间中增强视觉和音频嵌入之间的对齐时间嵌入分组用于捕捉视觉和音频信号之间的相对时间对齐约束旋转时间嵌入用于在全模态嵌入中编码绝对时间信息。论文引入了一个数据整理和合成流程生成了 2400 万个单模态和全模态对话。发现在感知和推理过程中不同模态之间相互促进。模型在 DailyOmni跨模态理解上的性能优于 Qwen2.5-Omni提升幅度为 19.05在 MMAR音频上提升幅度为 1.7在 Video-MME视觉上提升幅度为 3.9而训练样本量仅为 0.2T比 Qwen2.5-Omni 的 1.2T 减少了 6 倍。最后我们在机器人、医疗人工智能和智能工厂等下游应用中展示了全模态优势。方法概述论文提出了一种全模态理解的基础模型。通过所提出的全模态对齐机制将来自视觉、音频和文本模态的信息融合到一个统一的全模态标记序列中。全模态字幕生成流程。视频被分割成 20 秒的片段。视觉和 音频字幕分别针对每个片段独立生成但缺乏跨模态上下文并且包含 错误的理解模态特异性幻觉。一个独立的 LLM 执行跨模态校正和 摘要以生成准确的全模态字幕。实验结果训练数据在各种模态中的总体分布饼图显示了图像36%、非语音声音21%、语音17%、全模态15%和视频11%的比例。针对全模态对齐的消融研究。所提出的时间嵌入分组TEG、约束旋转时间嵌入CRTE和 OmniAlignNet 均能持续获得更优的平均性能。 跨模态的性能。Omni 基准测试包括视频音频数据集 Worldsense 和 Dailyomni以及图像音频数据集 Omnibench。OmniVinci展现出强大的视觉和听觉感知能力能够处理单模态或多模态场景。该模型还支持音频提示和输出。结论OmniVinci 是一个旨在构建全模态 LLM 的系统性方案它能够联合感知图像、视频、音频和文本。论文讨论了包括 OmniAlignNet、时间嵌入分组和约束旋转时间嵌入在内的架构创新并结合了增强的数据和训练方案。OmniVinci 展现了前沿的全模态性能降低了训练和推理成本并改进了下游智能体应用。