佛山网站建设多少钱深圳建设网站价格-黔南布依族苗族自治州网站建设公司-Seo优化

佛山网站建设多少钱深圳建设网站价格

2026/6/19 11:00:06 网站建设项目流程

佛山网站建设多少钱,深圳建设网站价格,网上装修平台,seo推广优化平台这项由加州大学洛杉矶分校联合索尼AI、耶鲁大学和美国陆军研究实验室共同完成的研究发表于2025年1月29日#xff0c;论文编号为arXiv:2601.21282v1。有兴趣深入了解的读者可以通过该编号查询完整论文。当我们看到积木塔摇摇欲坠即将倒塌#xff0c;或者观察一颗球滚下楼梯时论文编号为arXiv:2601.21282v1。有兴趣深入了解的读者可以通过该编号查询完整论文。当我们看到积木塔摇摇欲坠即将倒塌或者观察一颗球滚下楼梯时作为人类我们能够毫不费力地预测它们的运动轨迹。这种对物理规律的直觉理解对人类来说是天生的能力但对人工智能来说却是一个极大的挑战。近年来像英伟达Cosmos这样的世界基础模型声称能够大规模学习这些技能并承诺可以作为真实世界的合成数据生成器。然而要严格评估这些声明是否属实我们需要专门设计的基准测试系统能够在概念层面深入检验这些模型的物理理解能力。正是在这样的背景下研究团队开发了WorldBench这一全新的基准测试系统。如果把当前的AI物理理解评估比作一场考试那么现有的测试就像是把数学、物理、化学的问题混在一张试卷上让人根本无法判断学生到底是哪门功课没学好。WorldBench的创新之处就在于为每个物理概念和规律设计了专门的分科考试让研究者能够精确地诊断AI模型在哪个具体的物理概念上存在不足。传统的物理理解测试存在一个关键问题就像用粗糙的筛子筛面粉一样只能得到粗略的结果。现有的基准测试通常会将多个物理定律和概念纠缠在一起进行评估这从根本上限制了它们的诊断能力。比如当一个测试同时涉及重力、摩擦力和碰撞动力学时如果模型表现不佳我们根本无法确定问题出现在哪个具体环节。更糟糕的是这些测试往往使用简单的二元选择指标这就像用对或错来评判一幅画的好坏一样完全无法区分视觉上看起来真实但物理上不准确的结果。为了解决这些问题WorldBench采用了一种全新的设计理念。整个系统分为两个互补的部分就像为学生设计了两种不同类型的考试。第一种是直觉物理理解测试主要评估模型对基本物理概念的把握比如物体永存性或尺度透视关系。第二种是物理参数估计测试要求模型精确遵循特定的、可测量的物理参数如重力加速度、流体粘度和摩擦系数。当研究团队使用这个新系统测试最先进的视频生成模型时他们发现了一个令人深思的现象。这些模型在生成视觉上令人信服的场景演化方面表现不错比如能让球沿着抛物线轨迹运动但它们却无法遵循正确的物理参数比如让球以正确的重力加速度9.8米每二次方秒下降。这种发现突出了一个重要问题视觉真实感和物理准确性之间存在显著差异而这对于那些希望将世界模型用作合成数据生成器的应用来说至关重要。研究团队通过概念特定的评估发现所有测试的模型都缺乏生成可靠真实世界交互所需的物理一致性。这一发现为更加稳健和可泛化的世界模型驱动学习铺平了道路提供了一个更加细致和可扩展的框架用于严格评估视频生成和世界模型的物理推理能力。一、两套考试系统从直觉到精确的双重检验WorldBench的设计哲学可以用双重考核系统来理解。就像培养一名物理学家既需要培养对自然现象的直觉感知也需要掌握精确的数学计算能力一样这个基准测试系统也设计了两套相互补充的评估体系。第一套考试系统专门测试直觉物理理解就像测试一个人是否具备基本的物理常识。这套系统关注四个核心概念。运动物理学测试模型是否理解物体如何移动和相互作用比如当两个球相撞时会发生什么。物体永存性检验模型是否明白物体在被遮挡时仍然存在这听起来简单但对AI来说却是一个挑战就像婴儿需要学会理解藏猫猫游戏中的物体并没有真正消失一样。支撑关系评估模型对物体如何相互支撑的理解比如一个物体放在桌子边缘时什么情况下会保持平衡什么情况下会掉落。尺度透视关系则测试模型是否理解物体的大小和空间关系如何随着与摄像机的距离变化而改变。第二套考试系统则更加严格专门进行物理参数估计测试。这就像要求学生不仅要知道苹果会从树上掉下来还要能精确计算出它下降的加速度是9.8米每二次方秒。这套系统设计了三个核心实验重力实验通过自由落体和抛物运动来测试模型是否能准确模拟重力加速度粘度实验通过钢球在不同液体中的下沉速度来评估模型对流体粘度的理解摩擦实验通过物体在不同材料表面上的滑动来检验摩擦系数的准确性。为了确保测试的准确性和可重复性研究团队采用了精心设计的实验设置。所有模拟视频都使用Kubric这一开源物理模拟平台渲染该平台结合了PyBullet的精确物理模拟和Blender的高质量渲染能力。这种组合就像同时拥有了精密的计算引擎和出色的视觉呈现工具确保了生成的测试场景既物理准确又视觉真实。在直觉物理理解部分研究团队构建了469个视频其中425个是合成视频44个是真实拍摄视频。每个概念都设计了3到5个不同的场景每个场景包含25个视频通过随机化物体类型、位置和材料特性来创造丰富的测试样本。在物理参数估计部分团队创建了279个视频涵盖重力81个视频、摩擦103个视频和粘度95个视频的各种实验设置。这种双重考核设计的巧妙之处在于它能够同时检测模型的宏观理解能力和微观精确度。就像评估一名医生既要看他是否具备基本的医学常识也要检验他能否准确诊断具体病症一样WorldBench通过这两套系统的结合为AI模型的物理理解能力提供了全面而细致的评估。二、创新的评估方法从视频到物理参数的精确提取WorldBench的评估方法可以比作一套精密的物理侦探系统。当我们拿到一段视频时就像侦探面对犯罪现场一样需要从视觉线索中提取出隐藏的物理信息。这个过程涉及多个步骤每一步都像解谜游戏中的关键环节。对于直觉物理理解的评估研究团队开发了一套基于视觉分析的方法。这个方法的核心是使用SAM2Segment Anything Model 2来追踪视频中的物体。整个过程就像给物体贴上智能标签然后观察这些标签在整个视频中的移动轨迹。首先系统从生成视频的第一帧中提取物体的边界框然后用SAM2在整个视频序列中追踪这些物体。通过比较生成视频中的物体分割结果与真实情况的差异系统可以计算出前景物体的平均交并比mIoU和背景区域的均方根误差RMSE。这种评估方法的优势在于它不仅关注物体的位置还关注物体的形状变化、遮挡关系和整体场景的一致性。比如在测试物体永存性时系统会检查物体在被柱子遮挡后重新出现时其形状、大小和运动轨迹是否保持合理。在评估支撑关系时系统会观察物体在失去支撑后是否表现出正确的下落行为。对于物理参数估计部分评估方法更加复杂和精确就像建立了一个专业的物理实验室。这个过程需要从单目视频中提取三维位置信息这本身就是一个技术挑战。研究团队采用了一套精心设计的解决方案。首先他们使用传统的棋盘格方法校准相机的内参和外参这就像给摄像机配备了精确的眼镜让它能够准确感知空间关系。然后他们在所有视频中都放置了一个棋盘格作为参考由于知道棋盘格角点的三维位置系统可以动态估计每个视频的相机外参。为了简化深度估计的复杂性研究团队巧妙地设计了实验装置确保物体始终在与相机平行的平面内运动这样深度就保持恒定且可以精确测量。物体的二维位置通过SAM2追踪获得取物体掩模的质心作为其像素坐标。一旦获得了物体在整个视频序列中的三维位置数据系统就可以进行物理参数的计算。对于重力实验系统通过对物体位置随时间的变化进行二次函数拟合来估计加速度然后直接与重力加速度9.8米每二次方秒进行比较。对于摩擦实验系统使用物理公式μ (g sin θ - a)/(g cos θ)来计算摩擦系数其中θ是斜面角度a是测量得到的加速度。对于粘度实验系统首先通过线性拟合估算物体的终端速度然后使用斯托克斯定律η 2r?(ρs - ρf)g/(9vt)来计算流体粘度其中r是球的半径ρs和ρf分别是球体和流体的密度vt是终端速度。为了验证这套评估系统的准确性研究团队在真实拍摄的视频上进行了验证测试。结果显示所有估算的物理参数都在可接受的误差范围内。比如对于自由落体和抛物运动估算的重力加速度分别为9.78±0.38和9.85±0.36米每二次方秒非常接近理论值9.81。对于不同液体的粘度测试甘油的估算粘度为1.22±0.01帕·秒玉米糖浆为5.84±0.02帕·秒蜂蜜为13.82±0.75帕·秒这些数值都在合理的范围内。这套评估方法的创新之处在于它将复杂的物理分析转换为可量化的指标同时保持了高度的准确性和可重复性。通过这种方法研究者可以精确地诊断AI模型在特定物理概念上的表现为模型改进提供具体的指导方向。三、令人意外的发现视觉真实与物理准确的巨大鸿沟当研究团队使用WorldBench对当前最先进的世界模型进行测试时他们发现了一个既令人吃惊又发人深省的现象。这些模型就像擅长画画但不懂物理的艺术家能够创造出视觉上令人印象深刻的场景但在遵循基本物理定律方面却表现得相当糟糕。测试涵盖了多个代表性模型包括Cosmos系列Cosmos-1自回归版本、Cosmos-1扩散版本、Cosmos-2的2B和14B参数版本以及Cosmos-2.5和几个图像到视频的生成模型如Wan 2.2、Hunyuan Video和CogVideoX。这些模型代表了当前视频生成技术的最高水平但测试结果却揭示了一个普遍存在的问题。在直觉物理理解方面所有模型的表现都远低于预期。以前景物体的平均交并比为例大多数模型的得分都在0.2到0.4之间这意味着它们生成的物体位置和形状与真实情况的重叠度只有20%到40%。更令人担忧的是随着视频长度的增加模型的性能会急剧下降就像累积误差的雪球效应一样越滚越大。在物理参数估计方面结果更是令人震惊。几乎所有模型在重力加速度的估算上都存在严重偏差。比如理论上应该是9.81米每二次方秒的重力加速度有些模型的估算结果却接近零甚至出现负值这意味着在这些模型生成的视频中物体有时会向上掉落。Cosmos-1自回归版本估算的自由落体重力加速度为4.215±3.713米每二次方秒抛物运动为4.297±1.294米每二次方秒都远离正确值。图像到视频模型的表现甚至更糟CogVideoX对自由落体重力的估算结果为-0.039±0.136米每二次方秒这个负值意味着物体在向上掉落。在流体粘度测试中大多数模型都无法正确区分不同液体的粘度特性。它们往往将高粘度液体如蜂蜜模拟得像低粘度液体或者将低粘度液体模拟得过于粘稠。有趣的是摩擦系数的估算相对来说是最成功的大多数模型能够正确地保持不同材料摩擦系数的相对顺序尽管绝对数值仍有偏差。研究团队还发现了几个重要的模式。首先模型在处理合成视频和真实视频时的表现相似这表明问题不在于训练数据与测试数据之间的分布差异而是模型本身缺乏对物理规律的理解。其次模型在处理具有强训练先验的场景时表现更好比如球滚下斜坡这样的常见场景但在处理不常见的物体交互时就会出现问题。更有趣的是研究发现模型的表现与物体交互持续时间有关。在那些物体交互时间较长的场景中如斜坡实验和桌面实验模型的表现相对较好。而在那些快速交互的场景中如两物体碰撞或多米诺骨牌倒塌模型的表现就明显下降。这些发现揭示了当前世界模型的一个根本问题它们主要依靠从大规模视频数据中学到的视觉模式而不是真正理解支配这些现象的物理定律。就像一个从未学过物理的人通过观看大量视频来模仿物体运动他们可能能够复制表面的视觉效果但无法理解背后的物理机制。这种差距对于那些希望将这些模型用作合成数据生成器的应用来说尤其重要。如果一个自动驾驶系统使用这样的模型生成训练数据它可能会学到错误的物理行为比如认为车辆在刹车时会加速或者物体会无视重力定律。因此虽然这些模型在创建视觉上吸引人的内容方面很有用但要将它们用于需要物理准确性的应用中还有很长的路要走。四、深度诊断AI模型的物理认知盲点通过WorldBench的细致分析研究团队不仅发现了AI模型在物理理解上的整体不足更重要的是他们识别出了这些模型存在的具体认知盲点。这就像医生不仅诊断出病人生病了还能准确指出病变的具体位置和性质。在直觉物理理解的四个核心概念中模型表现出了明显的差异化模式。物体永存性是所有模型最大的挑战大多数模型的得分都低于0.3。这意味着当物体被遮挡时模型往往会忘记它们的存在或者在物体重新出现时无法保持其正确的位置、大小和运动状态。这个问题特别明显地出现在柱子遮挡和墙壁反弹等场景中。相比之下尺度透视关系对大多数模型来说是最容易处理的概念许多模型在这方面的得分都超过0.4。这可能是因为透视变化是视频数据中最常见的视觉现象模型从大量训练数据中学会了这种模式。然而即使在这个相对简单的任务中模型仍然会犯一些基本错误比如物体在远离相机时变化速度不正确或者在接近相机时出现不自然的变形。支撑关系的测试结果显示了另一个有趣的模式。模型在处理稳定支撑情况时表现相对较好但在预测不稳定情况下的物体行为时就会出现严重问题。比如当一个物体被放置在桌子边缘时模型往往无法正确预测它会在什么条件下保持平衡什么条件下会掉落。这表明模型缺乏对重心、支撑面积和稳定性之间关系的理解。在物理参数估计方面研究团队发现了一些特别值得关注的模式。所有模型在所有实验中都表现出极高的方差这意味着即使是相同的输入条件模型在不同次运行中也会产生截然不同的结果。这种不一致性对于任何实际应用都是致命的因为它意味着模型的行为不可预测。更深入的分析显示模型倾向于生成视觉上合理但物理上不准确的运动轨迹。以重力实验为例大多数模型确实会让物体沿着抛物线路径运动这在视觉上看起来是正确的。然而当仔细测量这些轨迹时研究人员发现物体的加速度往往与重力加速度相差甚远。有些模型让物体下落得太慢有些让物体下落得太快还有一些甚至产生了负的重力加速度。在材料属性的理解上模型显示出了明显的平均化倾向。对于那些具有极端属性的材料如高粘度的蜂蜜或低摩擦的塑料表面模型往往会将它们的行为向平均值靠拢。这种现象表明模型并没有真正学会不同材料的物理特性而是在某种程度上记住了训练数据中最常见的情况。研究团队还发现了一个有趣的训练偏向现象。模型在处理某些特定物体时表现明显更好。比如在重力测试中当使用篮球作为下落物体时模型的表现通常比使用其他形状物体时要好。这暗示着模型严重依赖于训练数据中的具体视觉模式而不是抽象的物理规律。时间尺度也是一个关键因素。模型在短时间序列中的表现相对较好但随着预测时间的延长误差会累积得越来越严重。这种累积误差效应在物理系统中尤其危险因为小的初始误差可能会导致完全错误的最终结果。最令人担忧的发现之一是模型缺乏物理常识的自我修正能力。在真实世界中如果我们看到一个物体表现出不符合物理定律的行为我们的大脑会自动识别出这是不合理的。但这些AI模型似乎缺乏这种内在的物理常识检查机制它们可能会生成物理上完全不可能的场景而没有任何察觉。这些深度诊断结果为改进AI模型指明了具体的方向。它们表明仅仅依靠大规模视频数据的训练是不够的模型需要更明确的物理约束和规律的嵌入。同时这些发现也提醒我们在将这些模型应用于关键任务时需要格外谨慎特别是那些要求物理准确性的应用领域。五、扩展评估语言理解能力的物理推理测试除了基于视频生成的评估外研究团队还开发了一套基于语言的物理推理测试这就像为AI模型设计了一套口试来补充实操考试。这套测试选择了181个代表性视频为每个视频设计了一个自然语言问题要求模型通过观看视频来回答关于物理现象的问题。这些问题涵盖了真假判断和多项选择两种形式就像我们在学校考试中遇到的题目类型一样。比如在观看多米诺骨牌的视频后模型需要回答会有多少个多米诺骨牌被推倒这样的问题选项包括没有、一个、两个或超过两个。另一个例子是观看椅子掉落的视频后判断椅子在撞击地面时会顺时针旋转这个陈述的真假。研究团队测试了多个代表性的视觉语言模型包括开源模型如Qwen2.5系列7B、32B和72B参数版本、GLM 4.1V、Mistral Small和Llama-3.2-11B-Vision以及闭源模型如Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Sonnet 4和GPT-4.1。这些模型代表了当前多模态理解技术的最高水平。然而测试结果同样令人失望。表现最好的模型是Gemini 2.5 Pro但即使如此它的整体准确率也只有49.72%仅比随机猜测稍好一些。在开源模型中令人意外的是32B参数的Qwen2.5模型的表现反而超过了72B版本这主要得益于它在运动物理类别中的出色表现。更详细的分析显示所有模型在不同物理概念类别中的表现存在显著差异。运动物理是所有模型表现最好的类别大多数模型的准确率都超过了50%。这可能是因为运动轨迹是视频数据中最直观和常见的模式模型从训练数据中学到了这些基本的运动规律。物体永存性再次成为所有模型的最大挑战。大多数模型在这个类别中的得分都低于40%其中Qwen系列模型的表现尤其糟糕。这与视频生成测试中的发现一致进一步证实了当前AI模型在理解被遮挡物体的持续存在方面存在根本性困难。有趣的是在墙壁反弹场景的测试中不同模型表现出了巨大差异。Qwen系列模型在这个场景中的得分接近零而Gemini系列模型的准确率却超过了60%。这种差异可能反映了不同模型在训练数据和架构设计上的差别。尺度透视关系的测试结果显示大多数模型在这方面的理解相对较好准确率普遍在45%到55%之间。这与视频生成测试的结果相呼应表明透视变化确实是当前AI模型相对容易掌握的概念。支撑关系的测试结果介于物体永存性和透视关系之间大多数模型的准确率在40%到60%之间。这表明模型对稳定性和支撑的理解虽然不完美但比对物体永存性的理解要好一些。这些语言基础测试的结果与视频生成测试形成了有趣的对比。虽然具体的评估方式不同但两种测试都揭示了类似的问题模式模型在基本的物理概念理解上存在系统性缺陷特别是在物体永存性方面。同时这些结果也表明无论是通过生成视频还是通过语言回答当前的AI模型都无法达到人类水平的物理直觉理解。更重要的是这种多模态评估方法为未来的研究提供了更全面的测试框架。通过结合视频生成、物理参数估计和语言推理三种不同的评估方式研究者可以从多个角度全面诊断AI模型的物理理解能力为模型改进提供更精确的指导。研究团队的这项工作不仅揭示了当前AI模型在物理理解方面的不足更重要的是为整个领域提供了一套标准化、细致化的评估工具。就像医学诊断需要多种检查手段来确保准确性一样AI模型的物理理解能力也需要这种多维度的综合评估。WorldBench的意义不仅在于指出了问题更在于为解决这些问题提供了精确的诊断工具和改进方向。说到底这项研究告诉我们一个重要的事实让AI真正理解物理世界比我们想象的要困难得多。当前的模型虽然能够生成视觉上令人印象深刻的内容但它们更像是技艺高超的画家而不是真正的物理学家。它们能够模仿物理现象的外观但缺乏对支配这些现象的基本规律的深层理解。这种发现对AI技术的发展具有深远的影响。对于那些需要精确物理建模的应用如自动驾驶、机器人控制或工程仿真我们不能简单地依赖这些模型的视觉输出。相反我们需要开发新的方法来明确地将物理约束和规律嵌入到AI系统中。同时WorldBench为未来的研究提供了宝贵的工具和基准。研究者们现在有了一个标准化的方法来测试和改进他们的模型这将推动整个领域向着更加物理感知的AI系统发展。随着更多研究团队使用这套基准测试我们有理由期待看到在物理理解方面有真正突破的新一代AI模型。归根结底这项研究提醒我们建造真正智能的AI系统需要的不仅仅是大量的数据和强大的计算能力还需要对现实世界运作规律的深刻理解。WorldBench不仅是一个测试工具更是通向真正理解物理世界的AI系统的重要里程碑。对于任何关心AI技术发展方向的人来说这项研究都值得密切关注因为它可能会深刻影响未来AI系统在现实世界中的应用方式。QAQ1WorldBench是什么AWorldBench是由加州大学洛杉矶分校等机构开发的AI物理理解评估系统。它专门用来测试AI模型是否真正理解物理规律而不仅仅是能生成好看的视频。系统分为两部分一部分测试基本物理直觉如物体永存性另一部分测试精确的物理参数如重力加速度。Q2现在的AI视频生成模型物理理解能力如何A测试结果很令人担忧。虽然这些模型能生成视觉上很真实的视频但在物理准确性方面表现很差。比如很多模型无法正确模拟9.8米每二次方秒的重力加速度有些甚至产生负值重力。所有测试模型都缺乏生成可靠物理交互所需的一致性。Q3WorldBench评估系统有什么特别之处AWorldBench最大的创新是分科考试式的设计。传统测试把多个物理概念混在一起无法判断具体哪里有问题。WorldBench则为每个物理概念设计专门测试能精确诊断AI模型在哪个具体物理规律上有缺陷就像医生能准确定位病变部位一样。

标签：网站建设企业官网项目流程 UI设计前端开发

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

太仓市建设招标网站淮阳住房和城乡建设局网站

微信wap网站用u盘做网站

建设网站费用多少钱自己制作网址收款

宁波网站优化方法东营网站建设方案

vs2010做网站前台c做项目的网站

电商网站的成本宣传片制作企业

文章分类

标签云

相关文章

dedecms仿下拉菜单网站东道官网

深圳公司网站建设做网站素材在哪找

婚庆大气网站源码南京做网站的公司

需要专业的网站建设服务？