10年前，奈何看HBM？

你的位置：中证优配 > 套现 >

套现

10年前，奈何看HBM？

发布日期：2024-06-03 19:38 点击次数：72

（原标题：10年前，奈何看HBM？）

要是您但愿可以常常碰头，迎接标星储藏哦~

起首：内容由半导体行业不雅察（ID：icbank）编译自anandtech，谢谢。

因为AI的鼓动，英伟达和HBM在连年来东谈主尽齐知。但可能很少东谈主知谈，AMD是宇宙上第一个推出HBM GPU的芯片公司。最近，咱们看到了一篇AMD时间东谈主员在2015年的采访，咱们来望望，这家芯片巨头当年是奈何看HBM的。

再次强调一下，这是一篇2015年的著述，重发的原因是但愿各人以此，看一下行业可能是奈何看HBM的。

以下为著述原文：

天然那时莫得引起太多感情，但 2011 年，AMD 和内存制造商 Hynix（现为 SK Hynix）公开秘书贪图融合劝诱和部署下一代内存圭臬：高带宽内存 (HBM)。HBM 骨子上是 GDDR 的继任者，它将在内存使命方面达成一些相等要紧的变化，以进一步提高内存带宽并裁减内存功耗。

在畴前十年中，AMD（以及图形处理鸿沟的前身 ATI）一直走在图形处理鸿沟收受新内存时间的前沿，率先部署了基于最新 2 种图形 DDR 圭臬（GDDR4 和 GDDR5）的家具。因此，AMD 和 Hynix 的声翌日然那时并不是什么大事，但却是 AMD 畴前行为的合理蔓延，即无间为改日家具探索新内存时间。假定 AMD 和 Hynix 定约一切顺利（这是有可能的，但不一定），几年后这两家公司将省略将该时间推向市集。

四年畴前了，成效的实验已让位于家具化。本月早些时候，在 AMD 2015 财务分析师日上，该公司秘书将在本季度向零卖市集发布其首款配备 HBM 的 GPU - 试验上是宇宙上第一款配备 HBM 的 GPU。从那时起，东谈主们就建议了很多问题，比如 AMD 盘算推算用 HBM 作念什么，以及这对他们的家具意味着什么（这是否像看起来那么繁难？），尽管 AMD 尚未准备好涌现行将推出的配备 HBM 的 GPU 的细节，但该公司但愿尽快推出 HBM，以便在本季度晚些时候 GPU 发布之前讲明这项时间是什么以及它能为他们的家具带来什么。

到目下为止，还是有很多对于 HBM 的演示发布，包括内存制造商、认真塑造 HBM 的 JEDEC 组织、AMD 以至 NVIDIA。因此，尽管第一批 HBM 家具尚未上市，但 HBM 的基础已被充分荟萃，至少在工程圈内是如斯。事实上，恰是 HBM 在那些时间圈内才确切被充分荟萃，这鼓动了 AMD 今天的最新表示。AMD 以为 HBM 是改日一年的一项繁难竞争上风，而现存的 HBM 演示主要面向工程师、学术界和投资者，AMD 但愿迈出下一步，向最终用户实施 HBM 时间。

这引出了今天著述的主题：AMD 对高带宽内存的深刻表示。为了鄙人一代 GPU 发布之前作念好准备，AMD 正在与时间和游戏媒体联系，宣传 HBM 以及它对 AMD 家具的真谛真谛。

GDDR5 达到极限的场合

要确切荟萃 HBM，咱们必须记忆到第一个筹备机内存接口，但为了便捷和千里着安宁，咱们将把这一课浓缩为以下内容。筹备机和内存接口的历史是在宽并行接口和快速串行接口之间足下迁移的轮回。串行端口和并行端口、USB 2.0 和 USB 3.1 (Type-C)、SDRAM 和 RDRAM，有一个足下劝诱更快接口的历程，然后劝诱更宽的接口，并凭据要求在它们之间往返切换。

到目下为止，在 PC 内存的竞争中，钟摆还是向串行接口主见歪斜。尽管还是过了 4 代 GDDR，但内存设想师仍在足下提高时钟速率以加多可用内存带宽，最终出现了 GDDR5，其每针数据速率高达 7Gbps+。GDDR5 已在高端市集奉陪咱们近 7 年，比任因何前的内存时间都长，况兼在此历程中比最初贪图的走得更远、更快。

但在接口周期中，当谈到 GDDR5 时，串行接口的钟摆终于达到了顶点。早在 2011 年 AMD 显卡发布会上，我问那时的图形首席时间官 Eric Demers GDDR5 之后会发生什么，天然他预测 GDDR5 会无间使用一段时分，但很显著 GDDR5 还是接近极限。高速总线带来了很多工程挑战，天然仍有创新的空间，但问题是这么作念是否值得。

GPU 社区对此的爽朗回复是“否”。GDDR5 类内存可以进一步发展，既可以使用现存的 GDDR5，也可以使用表面上的差分 I/O 内存（比如 USB/PCIe 总线，但用于内存），但这么作念会以雄伟的功耗为代价。事实上，即使是现存的 GDDR5 达成也还是奢靡了很是多的电量；由于 GDDR5 复杂的时钟机制，多半的内存电量只是用于分派和保管 GDDR5 的高时钟速率。任何改日的 GDDR5 类时间都只会加重这一问题，并带来新的复杂性，举例需要在内存芯片中添加更多逻辑，这是一个有点可怜的组合，因为逻辑和密集内存很难一谈制造。

目下，GDDR5 的功耗情况是这么的，据 AMD 预计，Radeon R9 290X（250W TDP）的功耗中 15-20% 用于内存。即使在该公司收受更宽、更慢、主频为 5GHz 的 512 位 GDDR5 内存总线以更好地适度功耗之后，情况仍然如斯。因此，使用更快、功耗更高的内存圭臬只会加重这个问题。

跟着消费者（和工程师）越来越喜欢功耗问题，消费缔造的功耗一直鄙人降。电板容量固定的迁移缔造天然是最好例子，但即使在 PC 鸿沟，CPU 和 GPU 的功耗也已达到峰值，之后有所下落。趋势是朝着更节能的缔造发展 - 2005 年高端 GPU 的酣畅功耗在 2015 年将是无法容忍的 - 这又给更快的串行内存时间带来了另一个破裂，因为功耗会在预测举座功耗下落的同期飞腾，因此单个缔造的使命功耗会裁减。

终末，除了上述通盘问题除外，还有可彭胀性问题。咱们将在参谋 HBM 的上风时进一步参谋这个问题，但简而言之，GDDR5 最终也会占用多半空间，尤其是当咱们评述面前高端显卡的 384 位和 512 位配置时。在一切都变得越来越小的时期，还需要进一步松开内存，而 GDDR5 和潜在的繁衍家具并不稳妥经管这个问题。

最终成果是，在 GPU 内存鸿沟，钟摆运转摆回并行内存接口。GDDR5 还是发展到了一个点，再进一步发展就会越来越低效，这导致商酌东谈主员和工程师寻找更宽的下一代内存接口。这等于他们选拔 HBM 的原因。

HBM：宽而慢，快而快

鉴于进一步鼓动 GDDR5 和访佛内存时间所濒临的挑战，高带宽内存时间的发展在畴前十年中已转向更宽、更慢的接口。跟着串行接口达到极限，并行接口成为一种越来越可行的替代决策。尽管它们也带来了我方的挑战——毕竟串行接口最近占据主导地位是有原因的——但进一步创新串行接口的挑战的加多与使并行接口更易于达成的时间的发展相吻合。因此，钟摆又摆回了并行接口和 HBM。

简而言之，HBM 将“wide & slow ”范式弘扬到了极致。HBM 并非围绕 ASIC 构建高速芯片阵列，通过 256/384/512 位内存总线达成每针 7Gbps+ 的速率，而是在最基本的层面上将内存时钟速率裁减到每针 1Gbps，但算作交换，内存总线变得更宽。有多宽？这取决于门径的实施和生成，但 AMD 迄今为止展示的示例波及 4 个 HBM 缔造（堆栈），每个缔造都具有 1024 位宽的内存总线，组合起来酿成一个雄伟的 4096 位内存总线。它可能不会被调高时钟速率，但要是它有那么宽，就不需要这么作念了。

天然，天然罕见的内存带宽很可以，但更真谛的部分是 HBM 若何达成这少许。天然宽而慢的并行总线的认识在纸面上很容易荟萃，但达成它又是另一趟事。4096 位内存总线波及数千条迹线，远远跳动 GDDR5，通盘这些迹线都必须尽心构建才能使 HBM 正常使命。因此，有几项基本时间正在通过 HBM 大限制（但不一定是初度）引入。

第一个亦然最根蒂的问题是若何高效地布线 4096 位内存总线？即使是最好的名义贴装 BGA 时间也有其局限性，而Hawaii正在鼓动其 512 位 GDDR5 内存总线的发展。更宽的总线只会让这一历程变得愈加困难，岂论是在 PCB 或芯片基板上布线如斯宽的总线，照旧使用 BGA 将芯片联接到这些领路，都会带来问题。

经管决策的第一步是劝诱省略达成更高密度布线的东西，而这个东西等于硅中介层。广义上讲，中介层是一种部分制造的硅芯片，它不是劝诱成一个装满逻辑的竣工 ASIC，而是只劝诱到具有金属层，以便在缔造之间路由信号和电源。中介层之是以有用，是因为它期骗了当代光刻工艺的一些中枢上风，允许创建相等空洞的旅途，而这在传统的 PCB 和基板上是不可能/不切试验的。

使用硅中介层经管了 HBM 的一些基本问题，但它也提供了一些附带公正。除了经管显著的布线问题外，中介层还允许将 DRAM 摈弃在相等围聚 ASIC 的位置，但不必摈弃在 ASIC 上方（即堆叠封装），这对于 GPU 等高 TDP 缔造来说是不切试验的。通过省略将 DRAM 摈弃在如斯围聚 ASIC 的位置，它幸免了长内存旅途的污点，使较短的旅途更易于构建，况兼在此历程中需要的功率更少。它还故意于集成，因为与 PoP 时间访佛，您可以将更多缔造功能放在与 ASIC 筹商的封装上，从而减少需要摈弃在封装外并布线到 ASIC 的缔造数目。

天然，中介层也有一个污点，那等于资本。天然 AMD 并莫得详备参谋资本问题（这是一次时间深刻探讨，而不是分析师会议），但中介层骨子上是一个相等大的、部分劝诱的硅片，这意味着它的出产资本相对较高，尤其是与资本相等低的 PCB 和传统基板比拟。缓解这一问题的事实是，中介层不需要经过最复杂、最鼎沸的光刻阶段（试验的前端光刻），因此资本只是硅晶圆自己，以及创建金属层所需的使命，最终的中介层唯独节略 100 微米厚。此外，这不需要顶端晶圆厂——旧的、完全摊销的 65nm 缔造运行精真金不怕火——这进一步裁减了资本。最终成果是中介层的资本仍然很高，但并不像最初看起来那么倒霉。这最终等于为什么 HBM 将早先在高端显卡等高利润家具上推出，然后才有可能进入 APU 等更低廉的缔造。

与此同期，从永久来看，AMD 偏执供应商也将从批量出产中受益。第一批中介层是在经过改换的 65nm 光刻出产线上出产的，操盘但是一朝批量出产限制扩大，劝诱仅中介层的出产线将变得经济实惠，因为它们不需要同期提供竣工的光刻才能，因此运行资本更低。目下还不明晰这个截止点在那里，但听起来它很快就会发生。

从更平凡的角度来看，在总体决策中，中介层成为通盘这个词芯片上的一个新层，位于传统基板和安设在其上头的任何 DRAM/ASIC 之间。微凸块将 DRAM 和 ASIC 联接到中介层，然后中介层将联接到基板，终末基板联接到其配套的 PCB。PCB 安设自己将在此历程中变得更容易一些，因为不再需要通过基板布线内存走线，这意味着独一剩下的联接是数据（PCIe 总线等）和 ASIC 和 DRAM 的电源。通盘复杂的布线基本上都集会在中介层上发生。

接下来，这里另一个要紧时间冲突是硅通孔 (TSV) 的创建。有了中介层来达成密集内存总线的布线，另一个需要经管的问题等于创建密集内存。经管决策是将多个内存芯片堆叠在一谈酿成单个缔造/堆栈，以创建单个 1024 位堆栈，而 TSV 恰是达成这少许的环节。

堆叠 DRAM 的原因相等简便：通过将 DRAM 减少到更少的分立缔造，可以简化出产，更无用说省俭空间了。这里的挑战是，由于 DRAM 是堆叠的，因此无法使用传统的名义贴装联接，而传统的边际联接（如 PoP 中使用的）既不够密集，也不可很好地彭胀到 HBM 所需的那种堆叠。

因此，需要一种才能来将 DRAM 联接路由到堆栈的较低层，而 TSV 经管了这个问题。旧例通孔可以将两层联接在一谈，而 TSV 则通过将通孔径直穿过硅器件来联接更远的层，从而彭胀了这一旨趣。最终成果有点访佛于通过微凸块将 DRAM 芯片名义贴装在一谈，但具有通过层进行通讯的才能。从制造的角度来看，在硅中介层和 TSV 之间，TSV 是更难掌合手的时间，因为它基本上结合了 DRAM 制造的通盘挑战以及将这些 DRAM 芯片堆叠在一谈的挑战。

在劝诱出堆叠 DRAM 的才能后，HBM 堆栈的终末一个组件是位于堆栈底部的逻辑芯片。一样配备 TSV 的逻辑芯片认真试验操作其上方的 DRAM 芯片，然后处理堆栈和 ASIC 之间的 HBM 总线操作。这试验上是一个很是真谛的发展，因为最终成果是尽管 HBM 总线很简便，但加多了更多逻辑，但同期由于 TSV 和中介层，添加该逻辑比以往任何时候都更容易。

HBM 的净收益

目下咱们有契机参谋 HBM 的构造神志以及构建它的时间缺乏，咱们终于可以谈谈 HBM 的性能和设想上风了。HBM 天然早先是进一步加多内存带宽，但堆叠 DRAM 和更低功耗的结合也开辟了一些无法通过 GDDR5 达成的罕见可能性。

咱们先从 HBM 的带宽才能运转。带宽量最终取决于使用的堆栈数目以及这些堆栈的时钟速率。HBM 使用 DDR 信号接口，天然 AMD 目下尚未公布最终家具规格，但他们还是向咱们提供了满盈的信息来运转构建竣工的图景。

AMD 使用的第一代 HBM 允许每个堆栈的时钟频率高达 500MHz，经过 DDR 信号传输后，每个引脚的速率可达 1Gbps。对于 1024 位堆栈，这意味着单个堆栈可以提供高达 128GB/秒（1024b * 1G / 8b）的内存带宽。HBM 反过来允许使用 2 到 8 个堆栈，每个堆栈承载 1GB DRAM。到目下为止，AMD 的示例图（以及 NVIDIA 的 Pascal 测试器用）都是用 4 个堆栈绘图的，在这种情况下，咱们将看到 512GB/秒的内存带宽。这天然比 R9 290X 的 320GB/秒内存带宽或 NVIDIA 的 GTX titan X 的 336GB/秒要高得多，内存带宽加多了 52-60%。

更真谛的可能是 HBM 对 DRAM 能耗的影响。正如咱们之前提到的，R9 290X 将其 250W 功率预算的 15-20% 用于 DRAM，或者十足功率约为 38-50W。同期，凭据 AMD 我方的估算，GDDR5 每瓦功率的带宽为 10.66GB/秒，通过该筹备可达到 30W+。另一方面，HBM 每瓦提供的带宽跳动 35GB/秒，每瓦能效立即提高 3 倍。

天然，AMD 随后会将部分收益再行干预到加多内存带宽中，因此，说内存功耗裁减了 70% 并不是那么简便。凭据咱们之前对 4 堆栈配置的 512GB/秒内存带宽的预计，512GB/秒 HBM 经管决策的功耗约为 15W，而 320GB/秒 GDDR5 经管决策的功耗则为 30W+。最终成果标明，DRAM 功耗险些减半，AMD 省俭了 15-20W 的功耗。

将 DRAM 功耗裁减 15-20W 的试验上风是什么？除了省略将其用于裁减举座显卡功耗除外，另一个选拔是将其用于提高时钟速率。由于 PowerTune 对功耗进行了严格死字，更大的 GPU 功率预算将允许 AMD 提高时钟速率和/或更常常地以最大 GPU 时钟速率运行，从而将性能提高到目下无法细目的进度。目下需要领导的是，更高的 GPU 时钟速率普通需要更高的电压，这反过来会导致 GPU 功耗的快速加多。因此，尽管领有罕见的功率余量确乎有助于 GPU，但它可能并不像东谈主们但愿的那样故意于提高时钟速率。

与此同期，在 AMD 新家具发布和基准测试之前，罕见内存带宽带来的性能提高一样不豁达。凭据教化，GPU 险些老是内存带宽瓶颈——毕竟它们是高糊涂量处理器，每秒省略进行数万亿次筹备，而带宽仅为数千亿字节——因此毫无疑问，HBM 更高的内存带宽将提高性能。然则，即使在 AMD 面前的显卡上，内存带宽的加多目下也不会带来 1:1 的性能提高，改日家具也不太可能有任何不同。

更倒霉的是，任何新的 AMD 家具都将基于 GCN 1.2 或更新版块，该版块引入了AMD 最新一代的颜色压缩时间。最终成果是，在筹商的使命负载下，内存带宽压力会下落，而内存带宽可用性则会飞腾。AMD 最终将得到多半有用内存带宽——这对于高诀别率来说相等有用——但这也使得无法预测最终的性能影响。不外，望望 AMD 如安在有用内存带宽加多 2 倍以上的情况下为图形使命负载带来什么，这仍然很真谛。

AMD 但愿期骗 HBM 的终末一个主要上风（这少许他们以至莫得荒谬说起）是 HBM 带来的更密集设想带来的新外形设想。跟着大型 GDDR5 内存芯片被更窄的 HBM 堆栈取代，AMD 告诉咱们，由此产生的 ASIC + RAM 成立可以小得多。

小若干？1GB GDDR5 由 2Gbit 模块构成（R9 290X 的圭臬模块大小），占用 672mm2，而 HBM 堆栈的 1GB DRAM 仅占用 35mm2。即使咱们针对 4Gbit 模块（目下出货的显卡中使用的最大模块）再行筹备，咱们最终得到的仍然是 336mm2，而不是 35mm2，对于 1GB DRAM 来说，这仍然省俭了 89%。最终，HBM 堆栈自己由多个 DRAM 芯片构成，因此仍然有很是多的硅片在使用，但由于堆叠，其 2D 占用空间显耀减少。

凭据 AMD 我方的预计，配备 HBM 的单个 GPU 封装将小于 70mm X 70mm (4900mm2)，而 R9 290X 的封装则为 110mm X 90mm (9900mm2)。由于 HBM 堆栈不需要相等复杂的电源传输电路，因此可以省俭更多空间，因此卡的空间省俭可能相等可不雅。凭据咱们的预计，通盘这个词卡的尺寸仍然会很是大 — 通盘这些 VRM 和联接器都需要摈弃在某个场合 — 但可以省俭多半空间。AMD 盘算推算若何使用这些省俭下来的空间还有待不雅察，不外在此向 AMD 暗意歉意，NVIDIA 还是展示了他们的 Pascal 测试平台，用于他们的夹层联接器设想，不问可知，这么的外形尺寸开辟了一些相等真谛的可能性。

终末，售后市集爱好者可能会也可能不会享受到使用 HBM 带来的终末一个公正。由于 DRAM 和 GPU 目下位于归并封装中，AMD 将在封装上安设集成散热器 (IHS)，以抵偿 HBM 堆栈和 GPU 芯片之间的高度互异，保护 HBM 堆栈，并为 HBM 堆栈提供满盈的冷却。高端 GPU 芯片还是走漏了一段时分，因此 IHS 为芯片带来的保护与 IHS 为 CPU 带来的保护筹商。但与此同期，这意味着不再可能径直讲和 GPU，因此顶点超频者可能会失望而归。咱们必须望望出货家具是什么样的，以及在这些情况下是否可以移除 IHS。

终结语

终结此次深刻探讨后，算作第一家推出 HBM 经管决策的 GPU 制造商（事实上，AMD 预测将成为独逐一家推出 HBM1 经管决策的供应商），AMD 已制定了一些相等积极的家具筹备，这要归功于 HBM 带来的收益。在咱们进一步了解 AMD 行将推出的显卡之前，我以为最好不要抱有太大的祈望，因为 HBM 只是 GPU 这个竣工拼图中的一块。但与此同期，咱们要明确少许：HBM 是 GPU 的改日内存时间，由于内存带宽大幅加多，它有后劲显耀提高性能，节略来岁，AMD 将是独逐一家提供这项时间的 GPU 供应商。

AMD 则但愿尽可能地期骗其早先上风，岂论是在时间层面照旧在消费者层面。在时间层面，AMD 到目下为止很少评述性能，是以咱们必须翘首企足，望望他们的新家具会带来什么。但 AMD 对其期骗 HBM 尺寸上风的贪图持愈加灵通的魄力，因此咱们应该期待看到一些非传统的高端 GPU 设想。同期在消费者层面，预测 HBM 将进入时间辞书，成为高性能家具的最新流行语——险些校服会印在今天的显卡盒上，就像 GDDR5 多年来一直印在显卡盒上一样——因为 AMD 但愿让每个东谈主都知谈他们的上风。

同期，从永久来看，高端 GPU 只是 AMD 预测的 HBM 更平凡应用的第一步。尽管 AMD 目下尚未应承推出任何其他家具，但跟着产量的提高和资本的下落，HBM 有望在更平凡的鸿沟达成经济可行性，包括低端 GPU、HPC 家具（举例 FirePro S 和 AMD 行将推出的 HPC APU）、高端通讯缔造，天然还有 AMD 的主流消费级 APU。算作利润率较低的家具，消费级 APU 可能猴年马月，但从永久来看，它们很可能是 HBM 最真谛的用例，因为 APU 是目下带宽最匮乏的图形家具之一。但在咱们走得太远之前，让咱们望望 AMD 本季度晚些时候能在其高端显卡上使用 HBM 作念些什么。

https://www.anandtech.com/show/9266/amd-hbm-deep-dive

点这里加感情，锁定更多原创内容

*免责声明：本文由作家原创。著述内容系作家个东谈主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或复古，要是有任何异议，迎接联系半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3784期内容，迎接感情。

『半导体第一垂直媒体』

及时专科原创深度

公众号ID：icbank

喜欢咱们的内容就点“在看”共享给小伙伴哦

上一篇：荷兰半导体，岌岌可危

下一篇：摩根大通何耀东：要是经济复苏势头不错保管不排斥资金会迟缓增配中国股市

让建站和SEO变得简单