漳州建网站wordpress添加新功能
2026/4/17 21:23:39 网站建设 项目流程
漳州建网站,wordpress添加新功能,东莞网站建设上科,电商网站建设好么英伟达AI系统的年度改进节奏对于在正确时间购买最新设备的客户来说是件好事。但英伟达机架级AI系统的快速改进以及大规模扩展网络的发展速度也意味着#xff0c;任何时候都会有一部分客户感到后悔#xff0c;希望自己当初等一等再买。我们意识到这可以说是第一世界的问题任何时候都会有一部分客户感到后悔希望自己当初等一等再买。我们意识到这可以说是第一世界的问题当获得任何GPU或XPU算力本身就是真正的问题时这个问题不值得抱怨。但今天当世界观看英伟达联合创始人兼首席执行官黄仁勋在拉斯维加斯2026年消费电子展上的主题演讲时不少高管无疑会在看到未来Vera Arm服务器CPU和RubinGPU加速器的性能规格以及与之配套的扩展NVLink内存架构和扩展Spectrum以太网互连以及新的网卡和DPU时想早知道就等等了这些组件共同创造了一个在处理或输出Token方面大幅改进的机架级系统。更具体地说英伟达高层表示Vera-Rubin NVL72机架级系统顾名思义有72个GPU插槽还有36个CPU插槽以及连接它们的NVSwitch架构与上一代Grace-Blackwell NVL72系统相比为专家混合(MoE)AI模型提供了每Token推理成本10倍的降低训练这些模型所需的GPU数量减少了4倍但请注意可能不是成本降低4倍。相比Blackwell更平稳的过渡英伟达在2016年4月推出了其首台自主服务器DGX-1系统基于Pascal P100 GPU加速器和将系统中八个GPU连接在一起的NVLink端口混合立方网格。按现代标准来看这是一台相当简单的机器值得注意的是第一台机器被送给了OpenAI首席执行官萨姆·奥特曼。两年后基于Volta V100 GPU的DGX-2平台问世还有一个叫做NVSwitch的奇特小设备这是英伟达研究部门的一个研究项目。通过DGX-2英伟达初次尝到了复杂系统组件开发和集成的滋味英伟达没有让其他公司按规格制造而是自己制造GPU板、交换板和两者之间的平面互连以保持质量控制。Ampere A100和Hopper H100 GPU采用了类似设计增强了浮点计算能力和支持带宽但在2024年3月推出的Blackwell GB200 NVL72设计中英伟达转向机架级规模将72个GPU插槽、36个CPU插槽和18个NVSwitch托盘塞进节点中创建了一个复杂、高温且制造具有挑战性的共享内存系统同时需求量很大供应紧张。最初的Blackwell机架级机器存在问题迫使GPU和机架在多个方面重新设计这当然意味着出货延迟——从2024年底延迟到2025年初才有合理的出货量。但当你正在构建世界上最复杂的服务器节点在集成和热管理方面突破极限时无论工程师多么谨慎和周到你都必须预期会有这样那样的问题。这次Vera-Rubin VR200 NVL72机器的一切都按计划进行。在黄仁勋主题演讲前与记者和分析师的预先简报中HPC和AI工厂解决方案高级总监Dion Harris说Vera-Rubin NVL72平台核心的六个芯片都已从台积电代工厂回来正在启动并发送给关键合作伙伴可以在2026年下半年开始批量生产。我们强烈怀疑英伟达将在3月圣何塞举行的2026年GPU技术大会上公布VR200 NVL72平台的更多细节——这些是按GPU插槽计算而不是小芯片所以这台机器也是英伟达在去年的路线图中之前称为VR200 NVL144系统的机器。但现在我们将分享在CES上公布的有关这些机器的信息。Harris在预简报中展示的最重要图表显示了Vera-Rubin系统设计重点关注提高HBM堆栈内存带宽的原因以便那些昂贵的Rubin GPU能够比Hopper和Blackwell世代更好地供给数据。在这个专家混合时代模型必须创建和分析更多Token来得出更好的答案如果你想及时做到这一点需要大量带宽来处理不同专家相互咨询时的所有通信。因此我们认为新Vera-Rubin机器中最重要的指标是Rubin GPU中八个HBM4内存堆栈推测是R200但英伟达尚未说明其名称的总带宽为22 TB/秒比Blackwell GPU中使用的八个HBM3E堆栈的8 TB/秒高2.75倍。这比预期的稍高一些但288 GB的容量是Blackwell B200 GPU的192 GB的1.5倍正好符合预期。Rubin GPU的基本规格显示这个双小芯片Rubin GPU插槽的NVFP4推理性能为50 petaflops是Blackwell B200 GPU的5倍但在训练方面NVFP4精度浮点运算的性能仅为35 petaflops仅为B200的10 petaflops的3.5倍。后续的B300经过调整AI推理性能达到15 petaflops比B200提升了50%。但对于Rubin GPU英伟达超大规模和HPC总经理Ian Buck解释了一种叫做自适应压缩的技术这是Rubin GPU重新设计的张量核心的一部分也是这些张量核心实现的下一代Transformer引擎的一部分。自适应压缩是一种基本上是更智能稀疏性形式的技术能够自适应地应用并且我们知道它不会影响准确性Buck告诉The Next Platform。在CPU方面英伟达今年晚些时候推出的AI和有时的HPC平台包括基于Vera Arm的CPU和英伟达自主研发的Olympus核心。Vera是比Grace更好的CPU。Vera芯片有88个核心每个核心有两个线程英伟达称之为空间多线程这还有待解释。Vera核心每个核心有2 MB的L2缓存是Grace及其非定制Arm Neoverse Demeter V2核心的2倍在核心间共享162 MB的L3缓存比Grace CPU的114 MB L3缓存增加42%。Vera芯片有1.5 TB的LPDDR5X内存比Grace的480 GB LPDDR5X内存高3.2倍。每个Vera核心有六个支持FP64到FP8格式的128位SVE2矢量引擎而Grace中有四个支持FP64到FP16格式的128位SVE2单元。在1.8 TB/秒的速度下Vera的NVLink共享内存带宽是Grace的两倍允许它与配对的Rubin GPU非常快速地共享数据。将它们组合在一起你就有了英伟达所说的Vera-Rubin超级芯片。将两个这样的组件放入MGX服务器托盘然后将十八个这样的托盘放入带有36个NVSwitch 4交换机的Oberon机架中你就有了一个机架级系统。考虑到英伟达尚未开始销售这个Vera-Rubin怪兽我们不知道它的成本。但考虑到这个机架中的一切制造成本都比其处理器更高并且它在相同空间内明显提供更多性能和更好的每瓦性能我们认为英伟达能够为Vera-Rubin系统收取溢价。至于多少市场将决定——我们预期英伟达著名的联合创始人兼首席执行官会有很大影响力。Vera-Rubin系统的灯塔客户包括亚马逊云服务、谷歌云、微软Azure、甲骨文云基础设施以及CoreWeave、Lambda、Nebius和Nscale等较小参与者。前三个客户正在制造自己的加速器谷歌很可能在硬件层面以与英伟达相同或更低的每Token成本做到这一点——并构建可扩展到单个内存域中9216个TPU的系统。这种规模是一个非常大的问题是英伟达必须解决的真正工程问题。我们也相信它能做到。QAQ1Vera-Rubin平台相比前一代有什么优势AVera-Rubin NVL72系统相比Grace-Blackwell NVL72系统为专家混合AI模型提供每Token推理成本10倍的降低训练模型所需的GPU数量减少4倍同时Rubin GPU的推理性能达到50 petaflops是Blackwell B200 GPU的5倍。Q2Vera CPU相比Grace CPU有哪些改进AVera芯片有88个核心每核心2MB L2缓存是Grace的2倍共享162MB L3缓存比Grace增加42%1.5TB LPDDR5X内存比Grace高3.2倍NVLink共享内存带宽1.8TB/秒是Grace的2倍。Q3Vera-Rubin系统何时可以投产使用A根据英伟达HPC和AI工厂解决方案高级总监Dion Harris的说法Vera-Rubin NVL72平台核心的六个芯片已从台积电回来正在启动并发送给关键合作伙伴可以在2026年下半年开始批量生产。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询