2026/4/18 13:37:08
网站建设
项目流程
建设部考试中心网站,wordpress图片视频分享,南宁seo咨询,WordPress小工具两列概 述中国科学院深圳先进技术研究院是中国科学院在粤港澳大湾区布局建设的国家战略科技力量#xff0c;作为深圳首个国立科研机构#xff0c;构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新体系#xff0c;高效推进科学研究与产业发展一体设计、一体推进。…概 述中国科学院深圳先进技术研究院是中国科学院在粤港澳大湾区布局建设的国家战略科技力量作为深圳首个国立科研机构构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新体系高效推进科学研究与产业发展一体设计、一体推进。基于Amazon Graviton处理器中国科学院深圳先进技术研究院高性能计算技术研究中心孟金涛团队简称“孟金涛团队”开发并优化了AutoGEMM计算库首次实现了将ARM芯片上的矩阵乘法计算效率提升到98%以上相比主流计算库实现1.3-2.0倍加速为AI训练与科学计算提供了高效、低功耗的新路径。目前孟金涛团队使用的亚马逊云科技产品与解决方案包括Amazon Graviton、Amazon EC2等。机会构建全新算法提升ARM架构计算效率高性能计算技术研究中心是中科院深圳先进技术研究院下属单位汇集了新世纪百千万人才工程国家级人选、中国科学院百人计划、中国科学院特聘研究员等人才聚焦高性能计算、数据分析、优化算法取得了多项研究成果已广泛应用于气象预测、智慧交通、新媒体、生物医药等领域。作为高性能计算技术研究中心的中坚力量之一孟金涛潜心于高性能计算、深度学习、生物信息学、图计算等方向的研究其团队研究内容涵盖ARM指令集下的矩阵乘法General Matrix MultiplyGEMM微内核设计、JITJust-In-Time即时生成类代码自动生成、软硬件协同指令流水线优化以及TVMTensor Virtual Machine框架级自动调优等技术。过去十年中孟金涛团队主导研发了多个开源线性代数与深度学习加速库已在国际超级计算大会SC、IEEE TPDSIEEE Transactions on Parallel and Distributed Systems、IPDPS等顶级学术会议、期刊上累计发表论文30余篇。如今使用RISCreduced instruction set computing精简指令集计算的ARM架构处理器凭借低功耗与高并行性等特点越来越多地成为数据中心与边缘计算的选择如何释放ARM芯片在AI场景下的性能潜力正成为业界关注的焦点。在AI计算中矩阵乘法GEMM作为深度学习和科学计算的核心算子占据了模型训练与推理的绝大部分计算量其性能表现直接决定了ARM芯片在AI场景中的应用效果。然而现有主流计算库主要针对规则方阵进行优化而深度学习实际应用中大量涌现的不规则矩阵计算效率尚不理想限制了ARM芯片在AI领域的竞争力。面对AI模型规模不断增长的趋势孟金涛团队将研究重心转向了ARM架构下不规则GEMM的极限性能优化希望通过自研AutoGEMM算法进一步提升ARM芯片的GEMM计算效率实现与x86等使用CISCComplex Instruction Set Computing复杂指令集计算的架构平齐的性能以便更好地支持大模型训练推理、AIGC生成及生物信息学模拟等前沿应用。为此团队需要一个具有代表性且灵活高效的ARM验证系统来支持算法的开发与性能调优。“Amazon Graviton是最早支持ARMv9指令的商业芯片之一其指令的高性能、片上互联的高可扩展性以及丰富的应用体系是我们选择亚马逊云科技的主要原因。”——孟金涛中科院深圳先进技术研究院高性能计算研究中心副研究员解决方案构建云端弹性算力体系加速算法优化与验证基于上述考虑孟金涛团队选择了基于Amazon Graviton的Amazon EC2实例作为AutoGEMM的核心验证系统。作为亚马逊云科技自研的数据中心级ARM处理器Amazon Graviton以其全面的技术能力和灵活的算力配置为AutoGEMM的研发提供了理想的支撑环境。在技术能力层面Amazon Graviton是最早支持ARMv9指令集的商业芯片之一代表了ARM架构在高性能计算领域的前沿水平。它无缝兼容主流Linux系统具有完善的编译优化工具链、先进的向量扩展SVE2与性能分析工具同时提供增强的安全特性确保了AutoGEMM从调试、优化到应用的技术需求得到满足为算法提供了贴近实际生产环境的验证条件。在算力资源层面AutoGEMM的开发需要针对不同矩阵形状和硬件配置进行大量参数调优。从Amazon Graviton3实例如C7g、Hpc7g单节点最高64 vCPU到最新Amazon Graviton4实例如C8g、R8g、M8g可扩展至192 vCPU丰富的算力配置使团队能够根据需求灵活调配资源。借助Amazon EC2的弹性扩展与按需付费模式结合Amazon Graviton的高性价比优势团队能够在可控预算内快速迭代高效完成从微内核优化到大规模并行测试的全流程验证显著提升了AutoGEMM的研发效率。业务成果从算法突破到产业应用AutoGEMM开启ARM高性能计算新篇章在亚马逊云科技支持下孟金涛团队高效完成了AutoGEMM计算库的开发与全面性能验证。针对ARM架构芯片在处理不规则矩阵乘法GEMM计算时存在的效率瓶颈AutoGEMM通过JIT代码自动生成、软硬件协同指令流水线优化以及框架级参数化调优等技术在小矩阵运算中首次将ARM芯片的GEMM计算效率提升至98%以上在不规则矩阵运算中相比主流开源库实现了1.3-2.0倍的性能提升使RISC架构芯片的计算效率达到CISC架构x86芯片水平证实了RISC架构不仅节能同时也能高效。目前AutoGEMM已成功在日本理化研究所RIKEN的富岳超级计算机上实现部署支撑大模型预训练与AIGC内容生成等高算力任务。与此同时上海智峪–先进院联合实验室也已将该技术应用于AI模型加速计算并在第15届CASPCritical Assessment of Structure Prediction蛋白质结构预测关键评估国际大赛中获得核酸建模冠军、蛋白–配体建模亚军。未来孟金涛团队将继续与亚马逊云科技深化合作围绕基于Amazon Graviton、Amazon Trainium等芯片的异构高性能计算、生成式AI模型训练优化等方向持续深入研发探索更高能效、更智能化的算力调度与算法共优化体系推动AutoGEMM及相关技术在科研计算、AI训练与产业级HPC场景中的持续落地与演进。关于深圳先进技术研究院中国科学院深圳先进技术研究院是中国科学院在粤港澳大湾区布局建设的国家战略科技力量作为深圳首个国立科研机构构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新体系高效推进科学研究与产业发展一体设计、一体推进。参考文献[1]https://ieeexplore.ieee.org/document/10793222[2]https://ieeexplore.ieee.org/document/9695263[3]https://dl.acm.org/doi/10.1145/3712285.3759779我们正处在Agentic AI爆发前夜。企业要从成本优化转向创新驱动通过完善的数据战略和AI云服务把握全球化机遇。亚马逊将投入1000亿美元在AI算力、云基础设施等领域通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验助力企业在AI时代突破。