性能暴增16倍, 谷歌透露下代Ironwood TPU架构
- 2025-08-31 04:43:44
- 216
单个Ironwood Superpod集成9216枚芯片,每片配备192GB、带宽7.4TB/s的高带宽存储。
近日,谷歌详细披露第七代TPU架构“Ironwood”超级计算平台。谷歌第七代TPU架构Ironwood于今年官宣,当时谷歌称其性能是当前最强大超级计算机的24倍。不过,此次披露的信息主要聚焦在单个Superpod的硬件构成与架构设计。
据介绍,单个Ironwood Superpod集成9216枚芯片,每片配备192GB、带宽7.4TB/s的高带宽存储,峰值算力高达 4614TFLOPs。相较之下,2022年发布的TPU v4集成4096枚芯片、配备32GB HBM,峰值算力275 TFLOPs,而2023年发布的TPU v5p集成8960枚芯片,配备95GB HBM,峰值算力459 TFLOPs,这意味着Ironwood Superpod单芯片性能较TPU v4提升超过16倍。
其中,每四颗芯片组成一块PCBA主板,16块主板构成一个机架,共64芯片节点,谷歌采用 InterChip Interconnect(ICI)技术,将多达43个64芯片模块互连,构建出拥有1.8PB/s网络带宽的集群。
在物理布局上,Ironwood沿用过去三代的3D Torus(立方环网)拓扑,每个逻辑单元为4×4×4节点阵列,即64芯片,封装于单个机架。而一个Superpod包含144个机架,还配备光学交换机机箱以实现跨模块互连,以及用于液冷的冷却分配单元(CBU)机架,互连方面为提高灵活性与可扩展性,采用PCB走线、铜缆和光纤的混合方式。
在机架设计上,顶部设有泄漏检测盘以监控液冷系统,下方是供电模块,具备两路电源域,将416V交流电经整流转换为直流电。整套系统支持液冷散热,满载运行功率可超过100kW。
Ironwood的关键特性
根据今年4月谷歌披露的信息,Ironwood依据AI工作负载的需求提供两种规格,分别为256 芯片配置和9216 芯片配置。Ironwood能提供大规模并行处理能力,足以支撑最复杂的AI工作负载,例如具备思维能力的超大规模密集型大型语言模型或混合专家模型(涵盖训练与推理场景)。
Ironwood 还搭载了增强型SparseCore(稀疏计算核心),这是一种专用加速器,专门用于处理高级排序与推荐类工作负载中常见的超大规模嵌入向量。Ironwood对SparseCore的支持范围进一步拓展,不仅能加速更多类型的工作负载,还能突破传统AI领域的限制,应用于金融与科学计算等领域。
Pathways是由Google DeepMind开发的机器学习运行时(ML runtime),能够支持跨多颗TPU芯片的高效分布式计算。Pathways可将数十万颗Ironwood芯片整合协作,助力生成式AI实现快速突破。
Ironwood关键特性包括以下:
性能与能效双优,降低AI成本:Ironwood在实现显著性能提升的同时,亦聚焦能效优化,助力 AI 工作负载以更具成本效益的方式运行。具体而言:能效比跃升,相较于去年发布的第六代 TPU(代号 Trillium),Ironwood 的能效比提升了1倍;散热与持续性能保障,凭借先进的液冷解决方案与优化的芯片设计,即便在持续高负载的 AI 运算场景下,Ironwood 仍能稳定输出高达标准风冷方案2倍的性能;长期能效迭代,与 2018 年推出的首款 Cloud TPU 相比,Ironwood 的能效提升了近 30 倍。
HBM容量大幅提升:Ironwood 单芯片配备 192GB 高带宽内存(HBM),容量是 Trillium 的 6 倍。这一提升带来两大核心价值,一是支持更大规模的模型训练与数据集处理,无需频繁拆分任务;二是减少数据在内存与计算单元间的迁移频率,直接提升整体运行效率。
HBM带宽显著优化:Ironwood 单芯片的 HBM 带宽达到 7.37TB/s,是 Trillium 的 4.5 倍。对于现代 AI 中普遍存在的 “内存密集型工作负载”而言,高速数据访问能力是保障任务流畅运行的关键,这一提升可有效避免因内存带宽不足导致的算力闲置。
芯片间互连带宽进一步增强:Ironwood 的芯片间互连(ICI)双向带宽提升至 1.2TBps,为 Trillium 的 1.5 倍。更快的芯片间通信速度带来两大优势,一是加速分布式训练进程,多芯片协同工作时,数据交互延迟更低;二是保障大规模推理效率,在超大规模 TPU Pod 部署场景下,可实现更高效的跨芯片任务调度。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!