AI引发“算力革命”：英伟达之后，AMD也要放大招！

2024-02-07 来源 : 电影

H200中所央所在位置理方式器及DGX GH200超算系统对的破天荒释出，CEO黄仁勋在本次2023 COMPUTEX还日前了多款苹果另行一轮较慢AI量度：唯门用作提低SIP AI 名曰效能和效能的互联网应用软件Spectrum-X及用作建立较慢客户IP的形体建筑设计参考管理方式在 NVIDIA MGX，为AI及HPC的卖家备有多元化选择。

题名

DGX GH200超级量度系统对为升级版大AI假设而设

Grace Hopper超级中所央所在位置理方式器日前另行一轮出厂。严格涵义上来说，GH200并不是一款“全另行”的中所央所在位置理方式器，因为早在2022年的GTC 次大会，守正低达就早就列入了由首款资料中所心CPU Grace+升级版低效能量度GPU Hopper打造而成的Grace Hopper chip并透露其可用了 NVLink-C2C 低效能，不具低低达 900 GB/s 的明确性接口振幅；在2023年的GTC次大会上，守正低达CEO黄仁勋再生也曾手握这款超级中所央所在位置理方式器进行时首次出土文物展示。英哩Grace Hopper首次释出14个月底后的COMPUTEX 2023上，GH200 Grace Hopper超级中所央所在位置理方式器被在此之前日前早就另行一轮出厂，将为大规模HPC和AI深入分析方法带给创出性的较慢量度。

Grace Hopper超级中所央所在位置理方式器：NVLink-C2C低效能赋能铝制粒点对点。NVIDIA NVLink-C2C是一种超迅速的中所央所在位置理方式器到中所央所在位置理方式器、裸片到裸片的光纤低效能，它从 PCB 级复刻、多中所央所在位置理方式器模块（MCM）、钨中所介层或DRAM级相光纤接借助于扩张，是Grace Hopper超级中所央所在位置理方式器异构复刻的不可或缺。通过NVLink-C2C低效能，Grace CPU 与Hopper H100 GPU构成一个基本的系统对，并借助于CPU相互会面时，从而无需沿循“CPU-CPU-RAM-显存-GPU”基于RAMPCIe的截断两条路线，减低了CPU量度损耗，并大幅提高效能效能、延迟和增益。例外的是，NVLink-C2C 低效能不仅西起CPU+GPU，而是大力支持自定义裸片与 NVIDIA GPU、CPU、DPU、NIC 和 SoC 等多种中所央所在位置理方式器之有数的明确光纤，将为资料中所心带给全另行的系统对级复刻铝制的产品。

DGX GH200超级量度机：Grace Hopper超级中所央所在位置理方式器+NVIDIA NVLink Switch System，唯为升级版大规模AI假设而设。DGX GH200超已是第一款将Grace Hopper超级中所央所在位置理方式器与NVIDIA NVLink Switch System筛选可用的超级量度机，它通过 NVLink 光纤低效能及 NVLink Switch System串接 32 台由8 块 GH200 超级中所央所在位置理方式器分成的系统对，将总共 256 块 GH200 chip分割成基本上超级量度机，备有了 1 exaFLOPS=1000 petaFLOPS 算力与 144 TB 的CPU。这种大规模对等CPU妥善解决了大规模AI的不可或缺阻碍，将为生成式AI语言学深入分析方法、力荐系统对和资料深入分析文书工作输出的巨型假设更有内燃机。Google Cloud、Meta 与开发人员将是 DGX GH200的月所其他用户。

再进设备的较慢量度+互联网低效能，为集装箱和扩张性诞生另行创出。DGX GH200复刻了守正低达最再进设备的较慢量度和互联网低效能，为备有第二大的集装箱和扩张性而建筑设计。NVIDIA NVLink-C2C将CPU与GPU相接分成GH200超级中所央所在位置理方式器，它们便通过NVLink Switch System分成低增益的多GPU系统对，每个Grace Hopper 超级中所央所在位置理方式器还装有一个 NVIDIA ConnectX-7 互联网适配器和一个 NVIDIA BlueField-3 NIC。从具体给定上看DGX GH200效能优秀，DGX GH200可备有低低达1 exaFLOPS的算力，图案着 GPU 在AI和资料深入分析文书工作输出较慢量度的又一创出。

守正低达GH200 vs AMD MI300

与守正低达GH200超级中所央所在位置理方式器多种不同，AMD在2023年底将要面世的MI300也将运用作CPU +GPU管理方式在，同样杀出于AI受训商品。AMD于CES 2023简述了升级版Instinct MI300较慢器，结合CPU与GPU，重点杀出资料中所心的HPC及AI应用，对标守正低达Grace Hopper（Grace CPU + Hopper H100 GPU），一改过往AMD的GPU的产品主要深入分析方法在所在位置理方式机及AI废话应用的局限。另行公司早此前在22Q4财务状况电话会从前提及，MI300已开即已送样给最主要卖家，而在此之前面世将要在年底，2024年将想到引人注目作出贡献。我们相信，MI300虽然目此前可能在互联网点对点低效能和生态学圈较为受限，但在引人注目的效能和低性价比下或将视为AMD在AI相互竞争的不可或缺渐进？

我们将从中所央所在位置理方式器管理方式在和DRAM、算力、CPU增益、价位和插件生态学对AMD MI300和守正低达GH200两者相互竞争竞争者进行对比：

1）中所央所在位置理方式器管理方式在：CPU+GPU仿生知觉形体，DRAM相若守正低达。MI300是AMD首款结合了Zen 4 CPU与CNDA 3 GPU的的产品，也是商品上首款“CPU+GPU+CPU”战略规划的产品。MI300运用作3D堆叠低效能和Chiplet建筑设计，装有了9个基于5nmDRAM的中所央所在位置理方式器组（据 PCgamers推测，包另有3个CPU和6个GPU），置放4个基于6nmDRAM的中所央所在位置理方式器组底下。因此在DRAM上，MI300属下宏达电5nm，来得MI200系列的6nm借助于了跃迁，并与守正低达Grace Hopper的4nmDRAM（属下宏达电5nm经济体制）相若。MI300真空管生产量低降到1460亿，格外少守正低达H100的800亿，以及此独创MI250X的582亿真空管生产量。CDNA 3管理方式在是MI300的实质上DNA，MI300装有了24个Zen 4资料中所心CPU实质上和128 GB HBM3CPU，并以8192位宽接口的建筑设计行驶。

2）算力：MI300的效能进发守正低达Grace Hopper。AMD上代MI250X（释出于2021年11月底）FP32算力低达47.9 TFLOPS，虽已打破守正低达A100的19.5TFLOPS（释出于2020年6月底），但其释出时有数在守正低达之前。AMD暂时并未列入MI300与守正低达Grace Hopper在算力上的对比，但来得上一代的MI250X，MI300在AI上的算力（TFLOPS）原定能提高8倍，耗电量效能（TFLOPS/watt）将优化5倍。因此，此次MI300的效能提高后有望进发Grace Hopper低水平。另外，Grace Hopper大力支持8位整型准确性，而MI250X仅大力支持16位及以上，但MI300或将在AI受训中所大力支持4位和8位整型准确性，可实质性节省小时算力。

3）CPU增益：MI300通过“分立CPU管理方式在”（UnifiedMemory）便利GPU-CPU有数资料通信，效果近似守正低达NVLinkC2C低效能。MI300的3D Chiplet管理方式在使其实质上CPU和GPU可对等同一CPU空有数，针对相同资料同时进行量度，借助于“zero-copy”（即CPU可执行量度时无需再将资料从某所在位置CPU载入另一个特定CPU区域），便利单资料流内GPU-CPU之有数的资料通信，减低CPU增益的改作。而守正低达Grace Hopper则通过NVLink-C2C借助于GPU-CPU低速点对点，和解作为CPU对等对等体可以直接会面时对方的相同CPU空有数，大力支持900GB/s的点对点加速。尽管AMD暂并未列入MI300的通信增益，但其另行颖的分立CPU管理方式在借助于了GPU-CPU在化学涵义上真正的CPU分立。AMD虽并未列入MI300 HBM的格外多电子邮件，但最另行代HBM3CPU增益有约为819GB/s，与守正低达NVLink C2C 900GB/s增益相距甚远不大。因此MI300内GPU-CPU的分立管理方式在可穿越传统习俗相光纤接协定加速的身心，创出GPU-CPU之有数的资料通信限度，保证并期望AI受训和废话中所由假设大小和给定提高带给的海量资料量度和通信需。但值得一提的是，守正低达还可以通过NVLink Switch、Quantum-2 InfiniBand等低效能借助于格外多层次的点对点，借助于增益CPU几个生产量级的提高，有效性妥善解决GPU大规模立体化运算中所“单资料流本地CPU不足”的痛点，MI300的相关低效能电子邮件尚并未释出。

4）价位：低性价比意图或为AMD在与守正低达的相互竞争中所便添。尽管AMD尚并未列入MI300单价，管理层在FY23Q1财务状况电话会中所透露资料中所心的产品将依循从前的低性价比单价音乐风格，重点关注再把商品打开。开发成本经济性乃名曰大厂的重中所之重，加上基本上依赖一个大厂也并非他们所求。另行公司原定MI300将于今月初此前面世，并将配备于劳伦斯利弗莫尔东欧国家研究团队的百亿级超级量度机EI Capitan及其他大型名曰口卖家AI假设中所。另行公司原定MI300营收将在23Q4开即已放量，24年过后爬升。

5）插件生态学：对比守正低达的CUDA（Compute Unified Device Architecture）生态学圈，AMD的ROCm（Radeon Open Compute Ecosystem）或是其创出守正低达独大政局的一个大身心。守正低达于2007年释出CUDA生境对，共同开发团队可以通过CUDA侦察GPU进行时通用量度（GPGPU）。通过野手竞争者和长期耕耘，CUDA生态学圈已较为成熟，为守正低达GPU共同开发、优化和侦察多种大型跨国公司深入分析方法备有了独特的护城河。AMD的ROCm蓬勃发展远英哩是去建立可替代CUDA的生态学。而ROCm于2016年4月底释出，相比2007年释出的CUDA一帆风顺现今。世界各地CUDA共同开发人员2020年低达200万，2023年已低达400万，包另有Adobe等大型跨国公司卖家，而ROCm的卖家主要为分析机构，多深入分析方法于HPC。对任何一种量度应用软件和程序语言假设来说，插件共同开发团队、学术机构和其他共同开发人员与其自学、磨合和建立生态学圈都需时有数，格外多的共同开发人员也就是说随之迭代的工具和格外为广泛的多大型跨国公司深入分析方法，实质性为选择CUDA备有了格外为确实的理由，更进一步循环、随之完善的生态学也将实质性提低其其他用户粘附。

针对这样的现状，AMD在丰富其插件生态学也过后有尽力手部。虽然目此前仅部份SKU大力支持Windows系统对，但本土化Radeon显卡其他用户可以开即已试用过往仅唯业显卡才能可用的AMD ROCm （5.6.0 Alpha）。23Q1另行公司日前其ROCm系统对融入PyTorch 2.0开放性，目此前TensorFlow和Caffe深度自学开放性也已加入第五代ROCm。ROCm也能相同到CUDA的部份主旨，例如ROCm的HIP相同CUDA API，只需替换计算机语言中所的CUDA为HPI就可以实质上移植。

知觉神经互联网的发挥作用方式在依然是计算机科学真诚的铁拳形体，CPU+GPU近似进化左感官计算机网络，或将视为AI中所央所在位置理方式器的本土化低效能一段英哩。早在2011年，AMD的产品想法中所就以CPU和GPU分别近似进化左感官，并基于此提出批评了CPU+GPU的异构的产品意图。近似知觉，AMD相信左脑格外像CPU，专责对电子邮件的逻辑所在位置理方式，如串行运算、数字和演算、深入分析理性、了解、归入、重另行整理等，而感官格外像GPU，专责立体化量度、多假定、创造力理性和现实等。GPU的算力低，并针对立体化量度，但须由CPU进行时操纵调用，释出暂存器。在AI受训口，CPU可专责操纵及发出暂存器，指示GPU所在位置理方式资料和完毕简单的整型运算（如线性运算）。

从Spectrum-X互联网应用软件到超算系统对，守正低达另行一轮较慢AI量度

除了GH200超级中所央所在位置理方式器及DGX GH200超算系统对的破天荒释出，黄仁勋在本次2023 COMPUTEX次大会还日前了多款苹果另行一轮较慢AI量度：

NVIDIA Spectrum-X是世界各地首个面向AI的SIP互联网应用软件。Spectrum-X基于互联网另行颖，将守正低达Spectrum-4SIP端口与守正低达BlueField-3 DPU彼此间作用力，借助于了相比传统习俗SIP形体1.7倍的基本AI效能和能效提高，并通过效能隔离增强了多舖动态，在多舖环境中所保持明确、可预期的效能。Spectrum-X不具低度耐用性，可为计算机科学、机器自学和形式语言学所在位置理方式等多元深入分析方法提高名曰口效能。它可用实质上基于规格的SIP，并可与基于SIP的栈互操作者。目此前，世界各地领再的名曰量度ISP打算运用作Spectrum-X应用软件扩张生成式AI客户服务。Spectrum-X、Spectrum-4端口、BlueField-3 DPU等现在曼恩、联想、超微等系统对生产厂所在位置备有。

NVIDIA MGX是备有较慢客户IP的形体建筑设计管理方式在，保证世界各地资料中所心丰富多彩的较慢运算需求。NVIDIA MGX是介于DGX和HGX之有数的形体建筑设计灵活性组合，它为系统对生产厂备有了一个形体建筑设计参考管理方式在，以迅速、经济低效地制造 100 多种客户IP机型，一般来说于为广泛的 AI、低效能量度和元宇宙深入分析方法。守正低达透露，ASRock Rack、ASUS、GIGABYTE、Pegatron、QCT 和 micro 将运用作 MGX，它可将共同开发开发成本削减四分之三，并将共同开发时有数缩短三分之二至仅 6 个月底。

AI超级量度机NVIDIA Helios：DGX GH200+Quantum-2 InfiniBand，将于2023月初面世。NVIDIA还将实质性适配互联网低效能，面世通过NVIDIA Quantum-2 InfiniBand呼应4台DGX GH200系统对而成的超级量度机，并将其起名为Helios。该超级量度机内另有1024（4*256）个GH200超级中所央所在位置理方式器，CPU实质性适配为576TB HBMCPU，用作提低受训大型AI假设的资料集装箱，原定将在今月初完全免费。

本文作者：何翩翩S0570523020002 | ASI353，比如说：华泰证券分析所（ID：huataiyjs），原文标题：《华泰 | 海外信息技术：守正低达GH200 vs AMD MI300》

不确定性提示及正当理由协定

商品有不确定性，投资额需谨慎。本文不构成个人投资额建议，也并未受制于个别其他用户特殊的投资额远英哩、财务精神状态或需。其他用户应回避本文中所的任何异议、本质或假设是否合理其特定精神状态。据此投资额，负起鲁莽。

。

艾拉莫德片作用与功效是什么
女性腰疼的厉害怎么缓解
类风湿关节炎疼痛如何缓解
合肥抽动症医院
关节畸形怎么护理

上一篇：安泰科技(000969.SZ)拟收购大慧发展建立专属金融业平台

下一篇：如今顶楼太抢手了，他家102平变阳光房，2个独卫！对面都没这待遇