芯片与硬件 2026-04-03 来源：AnandTech 3 小时前

AMD MI400 用 3D 堆叠猛攻显存短板，AI 算力战争迎来新变数

对于任何关注人工智能领域的人来说，过去两年最深刻的感受可能就是“缺货”和“昂贵”。无论是 OpenAI 的 GPT-4，还是谷歌的 Gemini，其背后庞大的算力需求都指向了同一类硬件——AI加速卡。而在这个由英伟达 H100、H200 乃至 B200 主导的市场上，AMD 的每一次动作都牵动着行业的神经。就在近日，AMD 再次向这片红海投入了一颗重磅炸弹。它正式发布了新一代 AI 加速卡 Instinct MI400 系列。如果仅仅从产品迭代的数字来看，MI400 似乎是 MI300 的自然延续。但当你深入了解其核心架构时，便会发现，AMD 这次祭出的，是一套旨在从根本上改变游戏规则的“组合拳”——**3D Chiplet（芯粒）架构**的全面深化应用。 ![AMD Instinct MI400 accelerator](/image/news-3c9dbdcc83c54bdb8a531ceb27c55eca.jpg) 简单来说，3D Chiplet 技术就像是给芯片盖“摩天大楼”。传统的芯片制造是在一个平面上平铺所有功能单元，而 3D Chiplet 则允许将不同工艺、不同功能的“小芯片”（Chiplet）像搭积木一样垂直堆叠起来，并通过极其密集的垂直互联通道（TSV，硅通孔）进行高速通信。在 MI300 上，AMD 已经展示了将 CPU 芯粒、GPU 芯粒和 HBM（高带宽内存）芯粒进行 3D 堆叠的威力。而到了 MI400，这一理念被推向了更极致的境地：**重点对显存系统进行了颠覆性重构**。根据 AMD 公布的信息，MI400 最大的飞跃在于其显存子系统。通过更先进的 3D 堆叠技术，AMD 成功将 HBM（高带宽内存）的堆叠层数进一步提升，并优化了内存控制器与计算核心之间的垂直连接。这带来的直接好处是显存容量和带宽实现了“跨越式提升”。虽然 AMD 尚未公布 MI400 的最终规格数据，但业界普遍预期，其显存带宽将轻松突破 10TB/s 大关，容量也可能达到现有顶级产品的 1.5 至 2 倍。这意味着什么？在 AI 大模型训练和推理中，尤其是面对当下动辄万亿参数、上下文窗口不断扩大的模型时，**显存容量和带宽是比纯算力更关键的瓶颈**。模型参数需要加载到显存中，海量的训练数据也需要在其中高速流转。如果显存不够，再强的算力也无用武之地；如果带宽不足，计算核心就会陷入“等米下锅”的闲置状态。MI400 瞄准的，正是这个最痛的痛点。它试图告诉业界：解决 AI 算力问题，不能只盯着浮点运算次数（TFLOPS），更要打通数据供给的“高速公路”。 ![3D chiplet architecture diagram](/image/news-0c17ab2c8c3d46a3ac6a296dfbf3b0f8.jpg) AMD 的这一策略，可以被视为对英伟达的一次“非对称竞争”。英伟达凭借其 CUDA 生态和强大的硬件架构，在通用计算性能和软件护城河上建立了巨大优势。而 AMD 则选择在封装和集成技术上寻找突破口，利用 3D Chiplet 在特定维度（如内存子系统、异构集成）上实现性能的跃迁。这有点像智能手机市场的竞争：当芯片的绝对性能都达到一定高度后，续航、散热、拍照等系统化体验就成了差异化关键。MI400 的推出，标志着 AI 硬件竞赛进入了一个新阶段：从比拼单一芯片的制程工艺和核心规模，转向比拼**系统级封装、异构集成与内存架构**的整体创新能力。当然，任何硬件革命都离不开软件的支撑。AMD 深知其 ROCm 开源软件平台与英伟达 CUDA 生态之间的差距。因此，伴随着 MI400 的发布，AMD 势必会进一步加大在软件栈、编译器、库函数以及框架优化（如 PyTorch, TensorFlow）上的投入。硬件上的“奇招”能否转化为市场优势，最终要看开发者是否愿意买单，以及模型训练和部署的实际效率提升是否显著。这是一个需要时间验证的漫长过程。从更宏观的产业视角看，MI400 的诞生不仅仅是 AMD 的产品更新。它反映了整个半导体行业应对后摩尔时代挑战的主流思路。当晶体管微缩的成本越来越高、难度越来越大时，通过先进封装将多个“小芯片”组合成一个“超级芯片”，成为了延续算力增长定律的最可行路径。AMD 的 3D Chiplet，英特尔的 Foveros，乃至台积电的 CoWoS 等，都是这一趋势下的产物。AI 加速卡作为对算力和能效要求最严苛的领域，自然成为了这些前沿技术的最佳试验场和展示窗口。对于广大开发者和企业而言，MI400 的出现带来了一个更积极的信号：**AI 算力市场的选择正在变多，垄断的坚冰有望被打破**。更激烈的竞争意味着更快的技术进步、更合理的价格以及更贴合多样化需求的解决方案。如果 MI400 能够如其承诺那样，在超大模型训练和长上下文推理场景中提供更具性价比的解决方案，那么它将成为撬动市场格局的一个重要支点。总而言之，AMD Instinct MI400 的发布，与其说是一款新产品的亮相，不如说是一次技术路线的宣言。它没有选择在对手最强的战场上正面硬刚，而是通过 3D Chiplet 架构的深度创新，开辟了一条以“内存为中心”的破局之路。这条路的尽头能否通往成功，还需要市场、软件生态和时间的共同检验。但可以肯定的是，AI 硬件战争的剧本，因为 MI400 的出现，增添了新的、充满技术想象力的篇章。未来几年，我们或将见证一个由异构集成和先进封装技术驱动的，更加多元和精彩的算力新时代。

2 次阅读

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。

AMD MI400 用 3D 堆叠猛攻显存短板，AI 算力战争迎来新变数

同类热点