2026/6/20 12:07:55
网站建设
项目流程
网站聊天室怎样做炫彩马甲,最简单的做网站,app定制,网站云服务器1950年#xff0c;计算机技术还仅限于自动算术和简单逻辑运算#xff0c;艾伦图灵提出了一个至今仍影响深远的问题#xff1a;机器能思考吗#xff1f;他拥有非凡的想象力#xff0c;预见到智能或许有一天可以构建而非天生。这一洞见后来开启了一场名为人工智能#xff0…1950年计算机技术还仅限于自动算术和简单逻辑运算艾伦·图灵提出了一个至今仍影响深远的问题机器能思考吗他拥有非凡的想象力预见到智能或许有一天可以构建而非天生。这一洞见后来开启了一场名为人工智能AI的不懈科学探索。在我从事人工智能工作25年后图灵的远见卓识依然激励着我。但我们距离目标究竟有多近答案并不简单。如今诸如大型语言模型LLM等领先的人工智能技术已经开始改变我们获取和处理抽象知识的方式。然而它们仍然是身处黑暗中的文字匠人它们能言善辩却缺乏经验知识渊博却缺乏根基。空间智能将彻底改变我们创造和与现实世界及虚拟世界互动的方式——它将革新故事讲述、创造力、机器人技术、科学发现等诸多领域。这正是人工智能的下一个前沿领域。自进入这个领域以来对视觉和空间智能的追求一直是指引我的北极星。正因如此我花费数年时间构建了 ImageNet——首个大规模视觉学习和基准测试数据集也是现代人工智能诞生的三大关键要素之一另外两个要素是神经网络算法和图形处理器 (GPU) 等现代计算技术。也正因如此我在斯坦福大学的实验室在过去十年中致力于将计算机视觉与机器人学习相结合。一年多前我和我的联合创始人 Justin Johnson、Christoph Lassner 和 Ben Mildenhall 共同创立了World Labs 旨在首次将这种可能性完全实现。在本文中我将解释什么是空间智能为什么它很重要以及我们如何构建能够释放它的世界模型——这将对创造力、具身智能和人类进步产生重塑作用。一、空间智能人类认知的基础人工智能从未如此令人兴奋。诸如LLM之类的生成式人工智能模型已经从实验室走向日常生活成为数十亿人创造、提高效率和沟通的工具。它们展现出了曾经被认为不可能的能力能够轻松生成连贯的文本、海量的代码、逼真的图像甚至是短视频。人工智能是否会改变世界已不再是问题。无论从哪个角度来看它已经改变了世界。然而仍有许多事物遥不可及。自主机器人的愿景固然引人入胜但仍停留在推测阶段距离未来学家们长期以来所承诺的日常生活必需品还相去甚远。在疾病管理、新材料发现和粒子物理等领域大规模加速研究的梦想至今仍未实现。而真正理解并赋能人类创造者的AI——无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建虚拟世界的电影制作人还是寻求完全沉浸式虚拟体验的任何人——的愿景也依然遥不可及。要了解为什么这些能力仍然难以捉摸我们需要研究空间智能是如何演变的以及它如何塑造我们对世界的理解。视觉一直是人类智能的基石但它的力量源于更为根本的东西。早在动物能够筑巢、抚育幼崽、用语言交流或建立文明之前简单的感知行为就悄然开启了通往智能的进化之旅。这种看似孤立的从外部世界获取信息的能力——无论是捕捉一丝光线还是感受质地——在感知与生存之间架起了一座桥梁并且随着世代更迭这座桥梁变得越来越牢固、越来越复杂。一层又一层的神经元从这座桥梁上生长出来形成了能够解读世界并协调生物体与其周围环境之间相互作用的神经系统。因此许多科学家推测感知和行动成为了驱动智能进化的核心回路也是自然创造我们这个物种的基础——感知、学习、思考和行动的终极体现。空间智能在定义我们与物理世界的互动方式中扮演着至关重要的角色。我们每天都依赖它来完成最普通的行为想象保险杠和路沿之间逐渐缩小的缝隙来停车接住扔到房间另一头的钥匙在拥挤的人行道上安全行走或者在睡眼惺忪时不看就把咖啡倒进杯子里。在更极端的情况下消防员在不断变化、烟雾弥漫的倒塌建筑物中穿行在瞬间判断建筑物的稳定性和生存状况并通过手势、肢体语言和一种无法用语言替代的共同职业本能进行沟通。孩子们在学会说话之前的几个月甚至几年里通过与周围环境的玩耍互动来学习世界。所有这一切都是凭直觉、自动完成的——这是机器至今仍无法企及的流畅性。空间智能也是我们想象力和创造力的基石。讲故事的人在脑海中创造出丰富多彩的世界并利用各种视觉媒体将这些世界呈现给他人从古代洞穴壁画到现代电影再到沉浸式电子游戏不一而足。无论是孩子们在沙滩上堆砌沙堡还是在电脑上玩《我的世界》基于空间的想象力都构成了现实世界或虚拟世界中互动体验的基础。在许多行业应用中物体、场景和动态交互环境的模拟为无数关键业务用例提供支持涵盖工业设计、数字孪生和机器人训练等领域。历史上充满了空间智能发挥核心作用的、定义文明的时刻。在古希腊埃拉托色尼将阴影转化为几何图形——在太阳于塞恩Syene投下无影的那一刻测量亚历山大港Alexandria的7度角——从而计算出地球的周长。哈格里夫斯的“珍妮纺纱机”凭借其空间洞察力彻底革新了纺织制造业将多个锭子并排排列在同一个框架中使一名工人能够同时纺多根纱线生产效率提高了八倍。沃森和克里克通过构建三维分子模型操纵金属板和金属丝最终使碱基对的空间排列完全吻合从而发现了DNA的结构。在这些例子中空间智能推动了文明的进步因为科学家和发明家需要操作物体、可视化结构并推理物理空间——而这些都无法仅用文字来描述。空间智能是我们认知能力的基石。无论我们被动观察还是主动创造它都在发挥作用。它驱动着我们的推理和规划即使是最抽象的话题也不例外。它对我们与他人或环境的互动方式至关重要——无论是语言上的还是肢体上的。虽然我们大多数人每天都无法像埃拉托色尼那样揭示新的真理但我们通常的思考方式却大同小异——通过感官感知复杂的世界然后运用直觉理解其在物理和空间层面的运作方式。遗憾的是目前的AI还不具备这种思维方式。尽管过去几年取得了巨大的进步但多模态逻辑模型MLLM在文本数据之外还使用了海量的多媒体数据进行训练已经具备了一些空间感知的基本能力。如今的AI可以分析图片、回答相关问题并生成超逼真的图像和短视频。此外随着传感器和触觉技术的突破我们最先进的机器人也能够在高度受限的环境中操控物体和工具。然而事实是人工智能的空间能力远未达到人类水平。而且其局限性很快就会显现出来。最先进的多层线性模型在估计距离、方向和大小方面或者通过从新角度重新生成物体来“心理”旋转物体方面很少能比随机猜测表现得更好。它们无法在迷宫中导航无法识别捷径也无法预测基本的物理现象。人工智能生成的视频——虽然还处于起步阶段而且确实很酷——但通常在几秒钟后就会失去连贯性。尽管当前最先进的人工智能在数据阅读、写作、研究和模式识别方面表现出色但这些模型在表征或与物理世界互动时却存在根本性的局限性。我们对世界的认知是整体性的——不仅关注我们所看到的事物更关注万物之间的空间关系、意义以及重要性。通过想象、推理、创造和互动而不仅仅是描述来理解这一切正是空间智能的力量所在。缺乏空间智能人工智能就无法与它试图理解的物理现实相联系。它无法有效地驾驶汽车无法引导家中和医院里的机器人无法创造全新的沉浸式和互动式学习和娱乐体验也无法加速材料科学和医学领域的发现。哲学家维特根斯坦曾写道“我的语言的界限就是我的世界的界限。”我并非哲学家但我知道至少对于人工智能而言语言远不止于此。空间智能代表着超越语言的前沿——它连接着想象、感知和行动并为机器真正提升人类生活开辟了无限可能涵盖医疗保健、创造力、科学发现以及日常辅助等诸多领域。二、人工智能的下一个十年构建真正具有空间智能的机器那么我们如何构建具有空间智能的人工智能如何才能构建出能够像埃拉托色尼一样进行推理、像工业设计师一样进行精确工程设计、像讲故事的人一样进行创造性创作、像急救人员一样流畅地与环境互动的模型构建空间智能人工智能需要比逻辑逻辑模型LLM更具雄心的方案世界模型。世界模型是一种新型生成模型其理解、推理、生成和交互语义、物理、几何和动态上复杂的世界无论是虚拟的还是真实的的能力远远超出了当今逻辑逻辑模型的能力范围。该领域尚处于起步阶段目前的方法涵盖了从抽象推理模型到视频生成系统等各个方面。世界实验室World Labs正是基于这样的信念而于2024年初成立基础方法仍在不断建立这将是未来十年面临的关键挑战。在这个新兴领域最重要的是确立指导发展的原则。对于空间智能我通过三种基本能力来定义世界模型1.生成式世界模型可以生成在感知、几何和物理上都保持一致的世界。能够解锁空间理解和推理的世界模型也必须能够生成自身的模拟世界。它们必须能够生成无穷无尽、丰富多样的模拟世界这些世界遵循语义或感知指令同时在几何、物理和动态上保持一致——无论代表的是真实空间还是虚拟空间。研究界正在积极探索这些世界应该以隐式还是显式的方式根据内在的几何结构来表示。此外除了强大的潜在表征之外我认为通用世界模型的输出还必须允许为许多不同的应用场景生成一个显式的、可观察的世界状态。尤其重要的是它对当下的理解必须与过去紧密相连与导致当前状态的先前世界状态紧密相连。2.多模态世界模型从设计上就是多模态的。就像动物和人类一样世界模型应该能够处理各种形式的输入——在生成式人工智能领域被称为“提示”。给定部分信息——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型都应该尽可能完整地预测或生成世界状态。这要求模型能够以媲美真实视觉的精度处理视觉输入并同样轻松地解读语义指令。这使得智能体和人类都能通过各种输入与模型交流并接收各种输出。3.交互式世界模型可以根据输入动作输出下一个状态最后如果行动和/或目标作为世界模型的输入其输出必须包含世界的下一个状态无论该状态是以隐式还是显式的方式表示。当仅输入行动无论是否包含目标状态时世界模型应生成与世界先前状态、预期目标状态如有及其语义含义、物理定律和动态行为相一致的输出。随着空间智能世界模型的推理和生成能力日益强大和稳健可以设想在给定目标的情况下世界模型本身不仅能够预测世界的下一个状态还能基于新状态预测下一步行动。这一挑战的规模超过了人工智能以往面临的任何挑战。语言是人类认知中一种纯粹的生成性现象而现实世界则遵循着更为复杂的规则。例如在地球上引力支配着运动原子结构决定着光如何产生颜色和亮度无数的物理定律约束着每一次相互作用。即使是最奇幻、最具创造力的世界也由空间物体和主体构成它们都遵循着定义自身的物理定律和动态行为。要将所有这些——语义、几何、动态和物理——协调一致需要全新的方法。表征世界的维度远比语言这种一维的序列信号复杂得多。要构建出能够提供我们人类所拥有的那种普适能力的宇宙模型需要克服诸多巨大的技术障碍。在世界实验室我们的研究团队致力于朝着这个目标取得根本性的进展。三、目前的一些研究课题示例1. 一种新的通用训练任务函数定义一个像逻辑逻辑模型LLM中的下一个词元预测那样简单优雅的通用任务函数一直是世界模型研究的核心目标。由于输入和输出空间的复杂性构建这样一个函数本身就更加困难。尽管仍有许多方面需要探索但这个目标函数及其相应的表示必须反映几何和物理定律尊重世界模型作为想象和现实的具象化表征的本质。2. 大规模训练数据训练世界模型所需的数据远比文本整理复杂得多。令人欣喜的是海量数据源已经存在。互联网规模的图像和视频集合提供了丰富且易于获取的训练素材——挑战在于开发能够从这些二维图像或视频帧信号例如 RGB中提取更深层次空间信息的算法。过去十年的研究表明在语言模型中数据量和模型规模之间的关联性遵循着重要的尺度定律而世界模型的关键在于构建能够以类似规模利用现有视觉数据的架构。此外高质量合成数据以及深度和触觉信息等其他模态的重要性也不容低估。它们在训练过程的关键步骤中补充了互联网规模的数据。但未来的发展取决于更先进的传感器系统、更稳健的信号提取算法以及更强大的神经模拟方法。3. 新的模型架构和表征学习世界模型研究必将推动模型架构和学习算法的进步尤其是在当前多层线性模型学习MLLM和视频扩散范式之外。这两种方法通常将数据标记化为一维或二维序列这使得简单的空间任务变得异常困难例如在短视频中统计不同椅子的数量或者回忆一个小时前房间的样子。替代架构或许有所帮助例如采用三维或四维感知标记化、上下文和记忆的方法。例如在世界实验室我们最近开发了一种名为RTFM的实时生成式帧模型该模型就展示了这种转变。RTFM使用空间相关的帧作为空间记忆在保持生成世界持久性的同时实现高效的实时生成。显然在通过世界建模充分释放空间智能之前我们仍然面临着诸多艰巨的挑战。这项研究并非仅仅是理论探讨而是新型创意和生产力工具的核心引擎。World Labs 的进展令人鼓舞。我们最近向部分用户展示了 Marble 的雏形这是首个能够通过多模态输入生成并维护一致的 3D 环境的世界模型供用户和故事讲述者探索、互动并在其创意工作流程中进行更深入的构建。我们正在努力尽快将其向公众开放Marble 只是我们构建真正具有空间智能的世界模型的第一步。随着技术的进步研究人员、工程师、用户和商业领袖都开始意识到它蕴藏的巨大潜力。下一代世界模型将使机器的空间智能提升到一个全新的水平——这一成就将解锁当今人工智能系统仍然严重缺乏的关键能力。四、运用世界模式为人类建设更美好的世界1. 人工智能发展的动机至关重要。作为引领现代人工智能时代的科学家之一我的动机始终清晰明确人工智能必须增强人类的能力而非取代人类。多年来我一直致力于使人工智能的开发、部署和管理与人类需求相契合。如今关于技术乌托邦和世界末日的极端论调层出不穷但我依然秉持着更为务实的观点人工智能由人开发由人使用也由人管理。它必须始终尊重人的自主性和尊严。它的魔力在于拓展我们的能力使我们更具创造力、更紧密地联系在一起、更高效、更充实。空间智能正是这一愿景的体现——它赋予人类创造者、照护者、科学家和梦想家力量让他们实现曾经不可能的事情。正是这种信念驱使我投身于空间智能领域将其视为人工智能的下一个伟大前沿。空间智能的应用涵盖不同的发展阶段。创意工具正在涌现——例如World Labs 的 Marble 已经将这些功能赋予了创作者和故事讲述者。机器人技术代表着一个雄心勃勃的中期发展方向我们将不断完善感知与行动之间的联系。最具变革性的科学应用需要更长时间才能实现但它们有望对人类福祉产生深远的影响。在所有这些时间线中有几个领域因其重塑人类能力的潜力而脱颖而出。这需要巨大的集体努力远非单个团队或公司所能完成。它需要整个人工智能生态系统的参与——研究人员、创新者、企业家、公司甚至政策制定者——共同朝着一个共同的愿景努力。但这个愿景值得追求。以下是未来展望2. 创意赋予故事讲述和沉浸式体验超强力量“创造力是智慧的乐趣。” 这是我最崇拜的偶像阿尔伯特·爱因斯坦的一句名言也是我最喜欢的名言之一。早在文字出现之前人类就讲述故事——将故事绘制在洞穴壁画上代代相传并基于共同的叙事构建起整个文化。故事是我们理解世界、跨越时空连接彼此、探索人性意义的方式而最重要的是它帮助我们找到生命的意义和内心的爱。如今空间智能有潜力改变我们创造和体验叙事的方式既能彰显叙事的根本重要性又能将其影响从娱乐扩展到教育从设计扩展到建造。World Labs 的 Marble 平台将为电影制作人、游戏设计师、建筑师和各类故事讲述者带来前所未有的空间能力和编辑控制力使他们能够快速创建和迭代完全可探索的 3D 世界而无需传统 3D 设计软件的繁琐操作。创作行为依然至关重要依然是人类的本能人工智能工具只是放大并加速了创作者所能取得的成就。这包括叙事体验迈向新维度电影制作人和游戏设计师正利用 Marble 构建完整的世界摆脱预算和地域的限制探索在传统制作流程中难以实现的各种场景和视角。随着不同媒体和娱乐形式之间的界限日渐模糊我们正在迈向融合艺术、模拟和游戏的新型互动体验——个性化的世界任何人而不仅仅是工作室都可以创造并沉浸于自己的故事之中。随着将概念和故事板转化为完整体验的更新、更快捷方式的出现叙事将不再局限于单一媒介创作者可以自由地在各种表面和平台上构建具有共同主线的世界。通过设计构建空间叙事几乎所有制造的物品或建造的空间都必须在实体化之前进行虚拟3D设计。这个过程需要高度迭代耗时耗力。借助空间智能模型建筑师可以在投入数月设计之前快速可视化结构漫步于尚未存在的空间——这本质上是在讲述我们未来生活、工作和聚会的方式。工业和时尚设计师可以瞬间将想象转化为形式探索物品如何与人体和空间互动。全新的沉浸式互动体验体验本身是我们人类创造意义的最深刻方式之一。纵观人类历史我们始终生活在一个单一的三维世界中我们共同拥有的物理世界。直到近几十年通过游戏和早期虚拟现实VR我们才开始窥见共享我们自己创造的平行世界意味着什么。如今空间智能与新型设备例如VR和扩展现实XR头显以及沉浸式显示器相结合以前所未有的方式提升了这些体验。我们正迈向一个未来步入完全实现的多维世界将如同打开一本书般自然。空间智能使世界构建不仅对拥有专业制作团队的工作室而言触手可及也对个人创作者、教育工作者以及任何拥有分享愿景的人而言触手可及。3. 机器人技术具身智能的实践从昆虫到人类动物都依赖空间智能来理解、导航并与周围环境互动。机器人也不例外。自该领域诞生以来具备空间感知能力的机器一直是人们的梦想包括我在斯坦福大学实验室与学生和合作者们所做的研究。正因如此我对利用世界实验室正在构建的这类模型来实现这一梦想的可能性感到无比兴奋。通过世界模型扩展机器人学习机器人学习的进展取决于可扩展的、可行的训练数据解决方案。鉴于机器人需要学习理解、推理、规划和交互的复杂状态空间许多人推测要真正创建可泛化的机器人需要结合互联网数据、合成模拟和真实世界中人类演示的捕捉数据。但与语言模型不同训练数据在当今的机器人研究中仍然稀缺。世界模型将在其中发挥决定性作用。随着感知保真度和计算效率的提高世界模型的输出可以迅速缩小模拟与现实之间的差距。这反过来将有助于在无数状态、交互和环境的模拟中训练机器人。伙伴与合作者无论是协助科学家在实验室工作还是帮助独居老人机器人作为人类的合作者都能扩大急需劳动力和提高生产力的劳动力队伍。但这需要机器人具备空间智能能够感知、推理、计划和行动同时——这一点至关重要——还要与人类的目标和行为保持同理心。例如实验室机器人可以操作仪器让科学家专注于需要灵巧操作或推理能力的任务而家庭助手可以帮助老人做饭同时又不影响他们的乐趣和自主性。真正具备空间智能的世界模型能够预测下一个状态甚至预测与预期相符的行动对于实现这一目标至关重要。具身形态的拓展人形机器人在我们构建的世界中扮演着重要角色。但创新的全部益处将来自于更加多元化的设计例如用于输送药物的纳米机器人、在狭小空间中穿梭的软体机器人以及专为深海或外太空打造的机器。无论其形态如何未来的空间智能模型都必须整合机器人所处的环境以及它们自身的具身感知和运动。然而开发这些机器人的一大挑战在于缺乏涵盖如此多种具身形态的训练数据。世界模型将在模拟数据、训练环境以及基准测试任务中发挥至关重要的作用。4. 更长远的视野科学、医疗保健和教育除了创意和机器人应用之外空间智能的深远影响还将扩展到人工智能能够增强人类能力、拯救生命和加速探索的领域。下文我将重点介绍三个具有变革意义的应用领域当然空间智能的应用场景远不止于此它涵盖了众多行业。在科学研究中空间智能系统能够模拟实验、并行检验假设并探索人类难以到达的环境——从深海到遥远的行星。这项技术可以革新气候科学和材料研究等领域的计算建模方式。通过将多维模拟与真实世界的数据采集相结合这些工具可以降低计算门槛并拓展每个实验室的观测和理解范围。在医疗保健领域空间智能将重塑从实验室到临床的方方面面。在斯坦福大学我的学生和合作者多年来一直与医院、养老机构和居家患者合作。这段经历让我确信空间智能在医疗保健领域具有变革性的巨大潜力。人工智能可以通过模拟多维分子相互作用来加速药物研发通过帮助放射科医生识别医学影像中的模式来增强诊断能力并实现环境监测系统从而在不取代治疗所需的人际互动的前提下为患者和护理人员提供支持。更不用说机器人能够在各种不同环境中帮助医护人员和患者的巨大潜力了。在教育领域空间智能能够实现沉浸式学习使抽象或复杂的概念变得具体化并创造迭代体验——这对我们大脑和身体的学习机制至关重要。在人工智能时代无论对于学龄儿童还是成人更快、更高效的学习和技能提升都显得尤为重要。学生可以探索细胞机制或以多维视角体验历史事件。教师可以通过交互式环境获得个性化教学的工具。从外科医生到工程师等专业人士可以在逼真的模拟环境中安全地练习复杂技能。在所有这些领域可能性是无限的但目标始终如一人工智能增强人类的专业知识加速人类的发现并增强人类的关怀——而不是取代作为人类的核心的判断力、创造力和同理心。五、结论过去十年人工智能已成为全球现象并成为科技、经济乃至地缘政治的转折点。但作为一名研究人员、教育工作者如今又成为一名创业者最激励我的依然是图灵75年前提出的问题背后的精神。我依然和他一样充满好奇。正是这种好奇心让我每天都充满动力地迎接空间智能带来的挑战。历史上首次我们即将制造出与物理世界如此契合的机器它们将成为我们应对最严峻挑战的真正伙伴。无论是加速我们在实验室中对疾病的理解革新我们讲述故事的方式还是在我们因疾病、伤痛或年老而最脆弱的时刻给予我们支持我们都站在科技的前沿这项科技将提升我们最珍视的生活品质。这是一个更深刻、更丰富、更有力量的生活愿景。在自然界于远古动物身上展现出空间智能的最初迹象近五亿年后我们有幸成为技术专家的一代或许很快就能赋予机器同样的能力——并且有幸能够利用这些能力造福世界各地的人们。如果没有空间智能我们对真正智能机器的梦想将是不完整的。