DEV Community

Eliana Lam
Eliana Lam

Posted on

NVIDIA Rubin

Rubin平台内存分层架构概要

层级 位置 技术 应用场景
G1 GPU直连 HBM4 / GDDR7 低延迟实时生成(热数据)
G2 系统内存 DRAM (LPDDR) 键值缓存缓冲与暂存(温数据)
G3 本地存储 NVMe / ICMS 短周期内上下文快速复用
G4 网络存储 WEKA / 共享存储 持久化历史数据与可靠结果(冷存储)


深入探索 HBM4、DRAM、GDDR7

1) HBM4(第四代高带宽内存)——人工智能的推动力

  • HBM4 专为实现最大吞吐量、效率和容量而设计,预计将于 2025-2026 年左右投入量产,目标是下一代人工智能加速器,如 NVIDIA 的 Rubin。
  • 3D/2.5D 架构:HBM4 通过硅通孔 (TSV) 垂直堆叠多个 DRAM 芯片(8 或 12 层,16 层正在开发中)。与之前的几代相比,HBM4 采用了基于逻辑工艺的基础芯片,允许与人工智能 SoC(系统级芯片)直接集成,以获得更好的效率。
  • 性能:HBM4 预计每个堆栈的带宽将超过 2 TB/s。与 HBM3e 相比,它将每个堆栈的数据通道数量翻了一倍(从 1024 增至 2048)。
  • 容量:12层的 HBM4 设备可存储 36GB 数据。
  • 效率:HBM4 承诺将实现 40% 以上的能效提升,这在大规模人工智能集群中是至关重要的。
  • 主要参与者:SK 海力士(领先于开发,目标于 2025/2026 年底)、三星(16 层开发)和美光(HBM4 样品测试)。

-

2) GDDR7(第七代图形双倍数据速率)——高速标准

  • GDDR7 是面向高性能 GPU 和人工智能推理加速器的下一代内存。它通过使用传统的 2D 封装(PCB),在高带宽和低成本之间取得平衡。
  • 速度:GDDR7 内存设计时针速率超过 40 Gb/s,部分模块可达 48 Gb/s。
  • 带宽:32 Gbps 的 GDDR7 解决方案可提供超过 1.5 TB/s 的总带宽,非常适合需求苛刻的游戏(RTX 50/60 系列)和商业人工智能工作负载。
  • 技术:它引入了先进的信号技术(PAM3)以实现比 GDDR6X 更高的数据速率。
  • 应用:三星正在专注于 GDDR7,以满足 NVIDIA Rubin CPX 和高端人工智能推理的需求,并计划将产出翻倍以满足需求。

-

3) DRAM 的进步与演变

  • 传统的 DRAM 继续发展以支持更高的频率和容量,同时新的专用类型正在为特定的人工智能工作负载而涌现。
  • Ic DRAM 节点:制造商正在转向 1c 工艺(第六代 1-伽马节点)以实现更高的密度和更快的产量,这一点在美光的示例中得到了证实。
  • LPDDR6(低功耗 DDR6):专为移动和边缘人工智能应用而设计,提供更高的性能和更低的能耗。
  • SPHBM4(专用 HBM4):这是一种比“真正”HBM4 成本更低的替代品,使用更窄的接口,但仍保持堆栈高密度性能,适用于特定应用。
  • 高带宽闪存(HBF):一种新兴技术,旨在缩小 SSD 存储与 HBM 之间的差距,由 SK 海力士提出,用于处理大规模人工智能推理数据集。

-

比较:HBM4 vs. GDDR7 vs. 传统 DRAM

特征 HBM4 GDDR7 传统 DRAM (DDR5/6)
封装 2.5D/3D(中间硅) 2D(PCB) 标准 DIMM
带宽 超高(>2 TB/s/堆栈) 很高(>1.5 TB/s 总计) 中等
成本 很高 低/中等
能效 很高 中等
主要用途 人工智能训练/数据中心 游戏 GPU/人工智能推理 服务器/客户端计算
关键指标 带宽/堆栈 每针速度 容量/成本

-

市场展望总结

  • 人工智能主导:HBM4 主要由 NVIDIA 的 Rubin 平台推动,目标是在“Rubin Ultra”系统中实现 1024GB 以上的 HBM。
  • 市场份额:SK 海力士领导 HBM 市场,但三星和美光正积极加快 32Gbps+ GDDR7 和 HBM4 的生产以抓住人工智能热潮。
  • 转向 3D:行业正在大力投资 3D 堆栈 DRAM(HBM)和先进封装(混合键合),以克服传统的“存储器壁垒”。


NVIDIA Rubin

NVIDIA Rubin 是为 2026 年后代理 AI (Agentic AI) 和超长上下文推理设计的下一代架构。相比 Blackwell,它更强调“数据中心即计算机”的机架级系统设计(Vera Rubin NVL72),其核心在于消除存储瓶颈,实现极高的推理吞吐量。

以下是关于 Rubin 架构中 HBM、DRAM、ICMS 和 Weka 的深入解析:

-

1) HBM (High Bandwidth Memory): HBM4 与 HBM4E

  • Rubin 平台将内存性能提升到全新高度,重点转向 HBM4,旨在解决大模型上下文窗口不断增加带来的延迟和带宽瓶颈。
  • 技术规格:Rubin GPU 预计每片配备 8 个 HBM4 内存堆栈。在更高端的 Rubin Ultra 版本中,预计会使用 16 个 HBM4/HBM4E 堆栈。
  • 内存容量:每片 Rubin GPU 将提供 288GB 的 HBM4 内存。Rubin Ultra 平台的容量更是预计超过 1TB (1024GB)。
  • 带宽:Rubin GPU 的聚合带宽达到 22 TB/s,这比 Blackwell 的带宽有数倍提升。
  • 关键突破:HBM4 相比 HBM3e 接口宽度倍增,并通过与 Rubin 芯片的深度共同设计(Codesign),确保高密度内存下的低延迟响应,专门用于处理推理的解码阶段。

-

2) DRAM (System Memory): LPDDR5X

  • 在 Rubin 架构中,系统内存主要指由 NVIDIA Vera CPU 驱动的 LPDDR5X。
  • 角色:LPDDR5X 位于内存层级中的“热数据(Warm Data)”位置,即 KV Cache 的存放处。它起到了缓冲和扩展 HBM 容量的作用。
  • 系统协作:Vera CPU 配备了高达 1.5TB 的 LPDDR5X 内存,不仅支持本地推理逻辑,还通过极高带宽的 NVLink-C2C 将其与 GPU HBM 协同使用,使得 LPDDR5X 和 HBM4 在逻辑上可以被视为单一的统一内存池。

-

3) ICMS (Inference Context Memory Storage): 推理上下文内存存储

  • ICMS 是 Rubin 平台中引入的一项突破性技术,旨在解决超长上下文(Context Length)带来的“KV Cache”存储危机。
  • 定义:基于 NVIDIA BlueField-4 DPU 的高速、闪存存储系统(Flash-based Tier)。
  • 核心功能:它充当了存储分层中的 G3/G4 层,用于存储不常用的但又需要在长上下文推理中调用的 KV Cache。这实现了“海量容量”与“高性能”的平衡,避免了为了长上下文而盲目堆积昂贵 HBM 的窘境。
  • 性能提升:ICMS 实现了 PB 级的数据存储,并通过 NVMe SSD 和 RDMA 技术,提供了相比传统存储高出 5 倍的 Token 每秒传输速率,在处理代理 AI 的复杂逻辑时,显著减少了因为等待数据而导致的 GPU 空闲(Inference Stalls)。

-

4) Weka: 软件定义数据平台与高速数据接入

  • Weka 技术在 Rubin 平台中主要用于提供高效的、针对数据存储优化的数据处理层,使得海量数据能跟上 Rubin GPU 的计算速度。
  • 整合方式:Weka 软件运行在 NVIDIA BlueField DPUs 上,通过其高性能数据平台(Data Platform)提供低延迟存储服务。
  • 应用场景:它针对大模型预训练(Pre-training)、微调(Post-training)以及推理中的检索增强生成(RAG)进行了专门的优化。
  • 协同效果:通过 Weka,Rubin 系统能有效地访问和管理庞大的、高带宽的共享文件系统,解决了数据湖(Data Lake)在数据加载时的速度瓶颈,保证 GPU 的计算核心能随时有数据填满,从而最大化 GPU 的利用率。

-

总结:Rubin 存储的分层视角

  • Rubin 平台通过一种端到端的协同设计,重新配置了 AI 存储:
  • HBM4 (GPU内):极高带宽、低容量,处理立即计算(Nanoseconds)。
  • LPDDR5X (Vera CPU):温数据存储(Warm Cache),处理上下文缓冲。
  • ICMS + Weka (机架层/网络层):闪存层,处理超长上下文的千亿级 Token(KV Cache),利用 BlueField-4 实现网络级的高效数据流。

-

关键特性对比:

  • Rubin GPU (288GB HBM4):提供 22 TB/s 带宽,处理当前生成任务。
  • Rubin CPX (128GB GDDR7):特别用于处理预填(Prefill)阶段的上下文。
  • BlueField-4 + ICMS:提供接近内存速度但容量更大的存储解决方案。


深入解析NVIDIA Rubin平台的ICMS、DRAM、Weka与HBM架构

NVIDIA Rubin平台预计于2026-2027年间发布,标志着向人工智能推理、长上下文理解及“解耦推理”的根本性转变。该平台突破传统单一GPU设计,采用多层级内存架构(ICMS、HBM、DRAM、Weka),旨在消除“重计算税”(即长上下文被遗忘后需重新处理的现象)。
以下深入解析NVIDIA Rubin生态系统的内存与存储技术:

-

1) ICMS(上下文内存存储)(In-Context Memory Storage)

  • 作为Rubin平台的战略支柱,ICMS旨在弥合高速GPU内存与低速大容量存储之间的鸿沟。
  • 核心价值:使智能体和长上下文大型语言模型能够将海量“KV缓存”(包含历史标记信息的键值对)存储于昂贵且容量有限的HBM之外,同时避免性能严重退化。
  • 架构:ICMS利用NVIDIA BlueField-4 DPUs提供RDMA加速的PB级存储,支持KV缓存以极低开销直接在GPU HBM间迁移。
  • 效能:相较传统存储机制,可实现每秒处理令牌量提升5倍,能效提升5倍。

-

2) HBM(高带宽内存)- HBM4/HBM4E (High Bandwidth Memory)

  • Rubin在封装内存技术上实现重大飞跃,采用HBM4为GPU的强大计算能力提供支持。
  • 规格:Rubin Ultra将采用16层HBM4E(16层32Gb DRAM芯片堆叠)实现单封装最高1024GB内存容量。
  • 性能:Rubin GPU预计提供高达22 TB/s的总带宽。
  • 角色定位:HBM专用于处理“热数据”(高延迟敏感数据),例如活跃令牌生成(解码阶段)。

-

3) DRAM与GDDR7(系统内存与专用内存) (System RAM & Specialized Memory)

  • Rubin平台推出Rubin CPX专用GPU,专为推理的“预填充”(上下文构建)阶段设计。
  • GDDR7应用:与采用HBM的主GPU不同,Rubin CPX GPU使用GDDR7(每GPU 128GB),为上下文密集型工作负载提供更经济的性能替代方案。
  • Vera CPU:配套的Vera CPU采用LPDDR5/6作为高效大容量系统内存,每CPU配备1.5TB。
  • “G2”层级:系统RAM作为二级缓冲区(G2),在HBM与持久存储间暂存键值数据。

-

4) Weka 与增强型内存网格 (Weka & The Augmented Memory Grid)

  • 英伟达与 WEKA 合作打造了“增强型内存网格”,将存储转变为 GPU 的无缝内存扩展。
  • Weka 代币仓库:该系统利用 Weka 软件管理 GPU 与存储层之间的数据流。它弥合了高速HBM(G1层)与持久性NVMe存储(G3/G4层)之间的鸿沟。
  • 机制:通过低延迟机制而非传统文件系统调用访问存储数据,解决AI应用的“重计算开销”问题,同时保持历史上下文的可访问性。

-

Rubin内存分层架构概要(层级)

  • G1(活跃层):HBM4/HBM4E(封装内置,约1TB)——活动数据生成层。
  • G2(活跃层):GPU DRAM/系统RAM(Vera CPU)——数据暂存/缓冲层。
  • G3(温区):本地NVMe/Weka——快速持久化键值缓存。
  • G4(冷区):共享存储/ICMS——长期上下文存储。
  • 该架构由NVIDIA Dynamo推理框架支持,使Rubin平台能够为高级代码生成和视频分析等应用处理百万令牌级上下文窗口。


NVIDIA Rubin平台计划

NVIDIA Rubin平台计划于2026年下半年发布,其专为智能体AI和海量长上下文工作流设计的专用架构,采用分层内存与存储策略——整合ICMS、DRAM、HBM4及WEKA等生态合作伙伴技术,突破万亿参数模型的“内存壁垒”。

-

1) ICMS(推理上下文内存存储)(In-Context Memory Storage)

  • ICMS是全新架构,专为管理长上下文推理所需的海量键值缓存(如百万令牌窗口)而设计。
  • 目的:通过提供PB级RDMA加速上下文存储,弥合高速GPU HBM与传统存储之间的性能鸿沟。
  • 效率:在上下文密集型工作负载中,每秒令牌处理量提升5倍,能效比传统存储提升5倍。
  • 作用:实现KV缓存的可扩展复用,最大限度减少复杂“智能体”推理任务中的推理停滞。

-

2) 内存层级:HBM4 vs. DRAM vs. GDDR7

  • NVIDIA Rubin采用多层级内存架构,在极致性能与成本之间取得平衡。
  • HBM4(高带宽内存):标准版Rubin GPU单芯片配备最高288GB HBM4,总带宽达22TB/s。Rubin Ultra(2027年推出)预计将通过16层HBM4E堆叠将容量扩展至1024GB(1TB)。
  • DRAM(系统内存/LPDDR):用于G2级暂存。Vera CPU(Rubin配套处理器)每芯片配备1.5TB LPDDR,满配NVL144机架可提供218TB高速系统内存。
  • GDDR7(Rubin CPX):新一代GPU Rubin CPX以128GB GDDR7替代HBM,专为推理的“预填充”阶段优化,显著降低大规模上下文工作负载的每令牌成本。

-

3) WEKA 与令牌仓库

  • NVIDIA 与 WEKA 合作,将专用软件层集成到 Rubin 生态系统中。
  • WEKA 增强型内存网格:该软件将 GPU 集群连接至 PB 级 NVMe 系统。
  • WEKA 令牌仓库:持久化存储层,支持键值缓存以极低开销直接进出 GPU HBM,为 AI 智能体提供长期“内存”支持。
  • 分层模型:WEKA协助管理G3层(本地SSD上的热KV数据)与G4层(共享存储上的冷历史数据),在保障数据持久性的同时,不影响活跃生成阶段的关键路径响应速度。

-

Rubin平台内存分层架构概要

层级 位置 技术 应用场景
G1 GPU直连 HBM4 / GDDR7 低延迟实时生成(热数据)
G2 系统内存 DRAM (LPDDR) 键值缓存缓冲与暂存(温数据)
G3 本地存储 NVMe / ICMS 短周期内上下文快速复用
G4 网络存储 WEKA / 共享存储 持久化历史数据与可靠结果(冷存储)


深入探索NVIDIA Rubi

NVIDIA Rubi平台于2026年CES展会正式发布,是一款专为智能体AI和长上下文推理设计的机架级AI超级计算机架构。它突破了芯片级优化的局限,将整个数据中心机架视为单一计算单元,重点攻克多兆亿参数模型的“内存壁垒”。

-

1) ICMS(推理上下文内存存储)

  • ICMS是由BlueField-4 DPU驱动的新型AI原生存储层。
  • 功能:管理百万令牌上下文窗口所需的海量键值缓存。
  • 分层架构(G3.5):作为“G3.5”层,ICMS弥合了GPU内存(G1/G2)与长期存储(G4)之间的差距。
  • 性能:通过预加载上下文数据防止GPU停滞,实现每秒处理令牌量提升5倍,能效提升5倍。
  • 容量:在Rubin SuperPod中,每块BlueField-4 DPU可连接高达150TB上下文内存,为每块GPU提供约16TB上下文存储空间。

-

2) 内存分层架构:HBM4、DRAM 与 GDDR7

  • Rubin 采用分层内存策略,在极致性能与成本效益间取得平衡:
  • HBM4(高带宽内存):旗舰级 Rubin GPU(R200)配备 288GB HBM4 内存,提供高达 22 TB/s 的带宽(近乎 Blackwell 的三倍)。
  • DRAM(系统内存):Vera CPU单芯片最高支持1.5TB LPDDR5X内存。在NVL72机架中,可提供54TB总系统内存。
  • GDDR7(Rubin CPX): 专用版本Rubin CPX采用128GB GDDR7替代HBM4,专为推理的“预填充”阶段优化,每GB成本较HBM降低逾50%。

-

3) WEKA 与令牌仓库

  • NVIDIA 与 WEKA、VAST Data 等公司合作,将其存储软件集成到 Rubin 堆栈中。
  • WEKA 增强型内存网格:该软件将 GPU 集群连接至 PB 级存储,构建用于持久化键值缓存的“令牌仓库”。
  • 软件编排:NVIDIA Dynamo框架与NIXL(推理传输库)协同WEKA,实现键值块在ICMS、系统内存与GPU HBM4之间的动态调度。
组件 关键特性 规格
Ruby GPU 双芯片架构 50 PFLOPS(FP4)
薇拉 CPU 88 颗定制 Arm 核心 1.8 TB/s NVLink-C2C
NVLink 6 高速互连 每 GPU 3.6 TB/s
ConnectX-9 超级网卡 1.6 Tb/s 扩展能力
BlueField-4 面向 ICMS 的 DPU 800 Gb/s 连接能力


深入解析 ICMS(推理上下文内存存储) (Inference Context Memory Storage)

在 NVIDIA Rubin 平台(2026年初发布)中,ICMS(推理上下文内存存储)是专为管理智能体人工智能所需的海量键值(KV)缓存及百万令牌上下文窗口而设计的专用存储层。

-

1) 架构定位:“G3.5”层级

  • ICMS弥合了高速但容量受限的GPU内存与传统高延迟共享存储之间的鸿沟。它集成于Rubin平台的四层内存体系:
  • G1(GPU HBM4):每GPU 288GB;活跃令牌生成延迟达纳秒级。
  • G2(系统LPDDR5X): 每CPU最高1.5TB;用于暂存被驱逐的KV缓存。
  • G3.5(ICMS):基于BlueField-4 DPU的集群级RDMA闪存层,以千兆级规模处理上下文内存。
  • G4(共享存储):企业级持久存储(如NetApp、VAST),保障长期数据耐久性。

-

2) 核心组件与技术

  • ICMS将推理上下文从高成本内存层迁移至持久化、低功耗的NAND闪存。
  • BlueField-4 DPU:作为主控制器,将KV I/O管理从主机CPU卸载,消除元数据开销和串行化阻塞。
  • Spectrum-X以太网:提供高性能低延迟RDMA架构,专为在单个集群中跨1,152个GPU共享KV缓存而优化。
  • 软件编排:利用NVIDIA Dynamo框架与NIXL(推理传输库),在解码阶段前将上下文块从ICMS预置回HBM4,确保GPU永不空闲。

-

3) 关键性能与容量指标

  • ICMS将KV缓存设计为无状态、可重构资源,优先优化速度而非持久性。
  • 吞吐量:通过避免长上下文工作负载中的GPU停滞,实现比传统存储高5倍的每秒令牌处理量。
  • 能效:相较标准企业存储协议,能效提升5倍。
  • 扩展性:Rubin SuperPod中的每块BlueField-4 DPU可管理高达150TB的关联上下文内存,为每块GPU提供约16TB专用上下文存储空间。

-

4) 战略目标:实现“智能体记忆”

  • 标准GPU内存无法存储复杂多轮AI智能体的完整历史数据。ICMS通过允许智能体保留海量历史数据而无需重新计算,实现了“智能体长期记忆”,这在多智能体环境中显著降低了每令牌成本。


深入解析DRAM(动态随机存取存储器)(Dynamic Random Access Memory)

DRAM(动态随机存取存储器)是作为标准易失性存储器,广泛应用于从笔记本电脑、服务器到高性能人工智能超级计算机等各类计算机系统的主存储器。它为CPU需要快速访问的数据和程序代码提供临时存储空间。

-

核心技术与功能

  • DRAM将每个数据位存储在集成电路内的独立电容器中。
  • 动态特性:“动态”一词源于电容器会随时间缓慢泄漏电荷。为防止数据丢失,外部刷新电路必须每隔数毫秒(通常为64毫秒)持续重写数据。
  • 易失性:DRAM属于易失性存储器,断电后所有存储数据将丢失。
  • 结构:单个DRAM单元仅使用一个晶体管和一个电容器,设计简洁,相比使用四至六个晶体管的SRAM(静态随机存取存储器),其存储密度更高且单位比特成本更低。

-

在NVIDIA Rubin平台中的作用

  • 在NVIDIA Rubin平台中,DRAM(具体为低功耗双倍数据速率同步DRAM的变体LPDDR5X)作为系统内存发挥关键作用,与HBM4及新型ICMS层协同工作。
  • G2层级缓存机制:DRAM在Rubin内存分层体系中构成“G2层级”,用于卸载并缓存从GPU高速HBM4内存溢出的海量键值对(KV)缓存数据。
  • 容量与带宽:Rubin平台中的配套Vera CPU每颗芯片配备高达1.5TB的LPDDR5X内存,峰值带宽达1.2TB/s。这种扩展容量使AI模型能够进行显著更长的上下文推理。
  • HBM解耦器:该DRAM层级的核心价值不仅在于降低存储成本,更在于“解放”超高带宽的HBM4(G1层级)资源,使其无需承载对延迟敏感度较低的数据。此举确保HBM能专注于关键的高带宽计算任务,从而提升整体系统效率。
  • 物理规格:Rubin系统采用小型外形压缩连接内存模块(SOCAMM)规格的LPDDR5X DRAM,在大型AI工厂中提升可维护性与故障隔离能力。
特性 DRAM(DDR、LPDDR) HBM(高带宽内存) GDDR7(图形DDR)
主要用途 主系统内存(CPU) 高性能计算、人工智能 显卡、专用人工智能
架构 水平式,DIMM插槽 介质层上的垂直3D堆叠 水平式,PCB板上
带宽 中等(如Rubin平台1.2 TB/s) 极高(如Rubin平台22 TB/s) 高(优化吞吐量)
延迟 三者最低 略高于GDDR 低于HBM
成本/GB 中等(低于HBM)


深入探索WEKA

在NVIDIA Rubin平台(2026年初发布)中,WEKA提供了实现大规模AI推理的关键软件定义数据层。它作为“令牌仓库”发挥作用——这一持久化存储层通过允许AI代理随时间保留并复用上下文信息,有效规避了“内存重计算开销”。

-

1) 令牌仓库概念

  • 在智能体AI中,每次交互都需重新计算数百万上下文令牌,其成本高昂。WEKA通过将上下文视为持久化资源来解决此问题。
  • 持久化KV缓存:WEKA将键值(KV)缓存条目存储于增强内存网格中——该共享结构基于NVMe存储,通过RDMA技术互联。
  • 避免重新计算:通过从WEKA检索预计算上下文而非在GPU上重新处理,用户在长上下文工作负载(如128,000个令牌)中实现首次令牌获取时间最高20倍的提升。

-

2) 与NVIDIA Rubin架构的深度集成

  • WEKA与Rubin平台的特定软硬件组件深度融合:
  • • BlueField-4 DPU支持:WEKA软件在BlueField-4 DPU上运行,将数据传输任务从主机CPU卸载,消除延迟并释放周期资源用于AI逻辑运算。
  • NVIDIA Dynamo与NIXL:WEKA加速NVIDIA Dynamo框架及NIXL(推理传输库),实现GPU HBM4、系统DRAM与WEKA存储层间KV缓存块的无缝传输。
  • 内存分层:NVIDIA ICMS在Pod层管理“温热”上下文,WEKA则提供G4层(无限横向扩展容量)用于长期历史数据与跨会话内存存储。

-

3) 关键性能指标(2026标准)

  • WEKA架构针对Rubin世代的高吞吐量需求进行优化:
  • 吞吐量:单节点提供高达252 GB/s的KV缓存,延迟接近DRAM水平,确保预填充内核永不阻塞。
  • 扩展性:其NeuralMesh™技术可聚合数百个节点的NVMe存储,提供随集群扩展而增长的近乎无限容量。
  • 效率:通过最大化GPU利用率,使整个推理系统的每令牌成本降低高达24%。

-

4) 战略生态系统角色

  • 英伟达与WEKA(以及VAST Data等企业)合作,共同推动推理上下文内存存储(ICMS)平台的标准化进程。作为Rubin NVL72机架的英伟达云认证合作伙伴(NCP),WEKA已成为超大规模企业(如CoreWeave和微软)在2026年末部署的“AI工厂”首选存储标准。


深入解析高带宽内存(HBM)(High Bandwidth Memory)

在NVIDIA Rubin平台中,高带宽内存(HBM)通过向HBM4的过渡实现了迄今为止最重大的架构变革。相较于前代Blackwell架构,该代产品将内存带宽提升近三倍,旨在突破阻碍万亿参数AI模型扩展的“内存壁垒”。

-

1) HBM4:架构性突破

  • HBM4不仅是速度升级,更是内存与处理器交互方式的根本性重构。
  • 2048位宽接口:HBM4将单堆栈接口宽度从1024位(HBM3e)提升至2048位。这使平台能在更低功耗时钟频率下实现海量吞吐量——Rubin NVL72平台可达22.2 TB/s总带宽。
  • 逻辑基底晶片:首次采用逻辑工艺(如4nm或12nm)制造堆栈底层基底晶片,取代传统存储工艺。此举使内存蜕变为“协处理器”,能在堆栈内部直接处理纠错等基础数据任务。
  • 16层堆叠与混合键合:为在不增加高度的前提下提升容量,HBM4采用铜对铜混合键合技术。此举消除了层间焊料凸点,缩小垂直间隙,散热效率最高提升20%。

-

2) 性能与容量规格

  • 2026年Rubin平台采用HBM4技术,为智能体AI工作负载提供前所未有的存储密度。
  • 单GPU容量:每块NVIDIA Rubin R200 GPU配备288GB HBM4内存。
  • 总带宽:单块Rubin GPU提供22 TB/s内存带宽,较Blackwell B200提升近3倍。
  • 系统级内存:在NVL72机架配置下,平台提供总计20.7TB HBM4内存,聚合带宽达1,580TB/s。

-

  1. 供应链与2026年市场格局
  • 截至2026年1月,HBM4市场正处于“超级周期”,主要超大规模企业已大量预订产能。
  • 三星:据称率先通过英伟达对Rubin平台的严格认证,其HBM4模块引脚速度突破11Gbps,超越标准JEDEC规范。
  • SK海力士:持续占据主导地位,展示了每堆栈48GB容量的16层HBM4器件,计划于2026年下半年实现量产。
  • 美光:已向NVIDIA交付Rubin平台的最终HBM4样品,目标在2026年底前实现15,000片晶圆的产能。
特性 HBM3e (Blackwell) HBM4 (Rubin)
接口宽度 1024位 2048位
最大容量/堆栈 36GB 48GB - 64GB
峰值带宽/堆栈 1.2 TB/s 1.6 TB/s - 2.0 TB/s+
基础晶圆工艺 内存工艺 逻辑工艺 (4nm/12nm)
键合技术 微凸点键合 混合键合 (无凸点)


深入探索Rubin超级集群 (Rubin SuperPod)

NVIDIA Rubin超级集群是Rubin平台的权威参考架构,于2026年国际消费电子展正式发布。作为交钥匙式AI工厂解决方案,它将多个机架整合为单一协同超级计算机,专为处理数万亿参数的智能体AI模型而设计,其推理成本较Blackwell平台降低10倍。

-

1) 规模与性能(2026年部署)

  • 标准Rubin超级集群将八个Vera Rubin NVL72机架整合为统一计算域。
  • GPU总数:576块NVIDIA Rubin GPU(1,152个光罩尺寸芯片)。
  • 计算性能:提供28.8艾次浮点运算的NVFP4推理性能。
  • 训练能力:约20艾次浮点运算性能,适用于FP4训练任务。

-

2) 核心组件:“六芯片”系统

  • SuperPod由六款协同设计的核芯片堆叠构成:
  • Rubin GPU:配备288GB HBM4内存,拥有高达22.2 TB/s的带宽(近期提升10%以保持领先优势)。
  • Vera CPU:专为“智能体推理”打造,每颗芯片集成88个定制“奥林匹斯”Arm核心及1.5TB LPDDR5X系统内存。
  • NVLink 6交换机:统一管理每机架72个GPU,单GPU双向带宽达3.6TB/s,实现“超级GPU”协同运作。
  • ConnectX-9 SuperNIC:提供1.6Tb/s横向扩展带宽用于机架间通信。
  • BlueField-4 DPU:采用双芯片封装,含64个Arm核心,作为推理上下文内存存储(ICMS)平台的控制器。
  • Spectrum-6 以太网:基于 102.4 Tb/s 芯片,采用共封装光模块(CPO)技术,能效比传统可插拔光模块提升 5 倍。

-

3) SuperPod 的关键创新

  • 推理上下文内存存储(ICMS):由 BlueField-4 管理、存储“千兆级”键值缓存的专用存储层,使代理无需重新计算即可记住长期历史数据。
  • 机架级扩展:前代产品聚焦单服务器,而Rubin是原生机架级系统。NVL72采用模块化无线缆托盘设计,组装与维护效率提升18倍。
  • 100%液冷系统:为应对极致密度(每机架20.7TB HBM4内存),整个SuperPod采用液冷技术,能效提升逾30%。
  • 机密计算:首个在CPU、GPU及NVLink全域提供数据安全保障的机架级平台。


4) 合作伙伴供货计划(2026年)

  • 截至2026年1月,生产已全面启动。首批Rubin SuperPod正由微软(用于其“Fairwater”人工智能超级工厂)、CoreWeave、AWS及谷歌云部署,并将于2026年下半年面向企业用户广泛开放。


深入解析BlueField-4 DPU

在NVIDIA Rubin生态系统(2026年初发布)中,BlueField-4 DPU(数据处理单元)已从辅助基础设施芯片转型为代理式AI的核心“上下文控制器”。它作为驱动ICMS(推理上下文内存存储)层的主要硬件引擎,承担着关键作用。

-

1) 架构演进:双芯片设计

  • 不同于单芯片的BlueField-3,BlueField-4采用基于3nm/4nm工艺的双芯片封装结构。
  • 计算核心密度:搭载64个定制Arm Neoverse核心(较BF3提升48倍),提供本地计算能力以管理复杂AI内存结构,同时避免干扰Vera CPU或Rubin GPU。
  • 1.6 Tb/s吞吐量:作为首款支持1.6太比特每秒(Tb/s)以太网和InfiniBand的DPU,其带宽可媲美ConnectX-9超级网卡。
  • AI原生加速:内置专属硬件引擎管理键值缓存,在内存层级间传输上下文数据时自动执行压缩、加密及去重操作。

-

2) BlueField-4在ICMS中的作用

  • BlueField-4在推理上下文内存存储(ICMS)平台中扮演“交通警察”的角色。它实现了定义Rubin超级集群的“以太网内存传输”概念:
  • RDMA卸载:通过高速RDMA技术,直接从WEKA令牌仓库或本地NVMe存储中提取KV缓存块,并将其置入GPU内存路径[3]。
  • 上下文预取:通过预测算法,BF4能在GPU请求前将下一组可能用到的上下文令牌预先加载至G2(DRAM)层,几乎消除了长上下文推理中的“预填充”延迟。
  • 5倍能效提升:通过卸载数据管理任务,BF4使Rubin平台在内存密集型工作流中实现5倍能效提升,远超依赖CPU存储管理的系统。

-

3) 集成安全与保密计算

  • 到2026年,人工智能代理的数据隐私将成为关键需求。BlueField-4提供:
  • 线速加密:以1.6 Tb/s的速度对通过NVLink和以太网结构传输的100%数据进行加密,确保存储在ICMS中的上下文数据永不以明文形式暴露。
  • 硬件隔离:为AI内存创建“安全区域”,防止在Microsoft Azure或AWS Rubin实例等多租户环境中发生跨租户数据泄露。
特性 BlueField-3(Blackwell时代) BlueField-4(Rubin时代)
最大带宽 400 Gb/s 1,600 Gb/s(1.6 Tb/s)
处理器核心 16核 64核
PCIe支持 PCIe 5代 PCIe 6代
主功能 网络与安全 上下文内存编排
存储角色 基础NVMe-oF ICMS/KV缓存控制器


深入解析LPDDR5X DRAM采用的小外形压缩附加内存模块(SOCAMM - Small Outline Compression Attached Memory Modules)格式

在NVIDIA Rubin平台(2026年初发布)中,SOCAMM(小型外形压缩连接内存模块)格式标志着系统内存集成至AI超级计算机方式的关键变革。它以模块化高性能接口取代了传统的焊接式LPDDR内存。

-

1) 什么是SOCAMM?

  • SOCAMM是专为LPDDR5X DRAM设计的标准化内存模块方案。其采用“压缩式”连接器(类似CAMM2),通过螺钉将模块夹持于主板与支撑板之间,摒弃了传统的水平引脚或焊接工艺。
  • 物理形态:相较标准SO-DIMM,其厚度显著降低且体积更紧凑,完美适配Rubin NVL72的高密度托盘设计。
  • 短信号路径:通过压缩配合直接贴合电路走线,其信号完整性远超传统插座式内存,可满足AI数据分阶段处理所需的高传输速率。

-

2) 在Rubin平台中的战略意义

  • NVIDIA为搭配Vera CPU的1.5TB LPDDR5X DRAM采用了SOCAMM技术,该方案实现了多项工程目标:
  • 高带宽(1.2 TB/s):SOCAMM使Vera CPU达到此前仅焊接内存才能实现的带宽水平。这对G2层级(DRAM)快速为GPU构建键值缓存至关重要。
  • 可维护性与良率:不同于Blackwell架构(内存常焊接在主板上),SOCAMM技术使数据中心技术人员仅需更换单个故障内存模块,无需更换整块价值5万美元以上的CPU主板。这显著降低了人工智能工厂的总体拥有成本(TCO)。
  • 容量密度:垂直压缩设计使英伟达能够在更接近Vera CPU的位置集成更多内存模块,从而实现长上下文智能体AI所需的单芯片1.5TB海量内存容量。

-

3) 关键技术规格(2026标准)

  • 速度:支持LPDDR5X最高9600 MT/s速率(特殊配置下可突破上限),远超传统SO-DIMM的性能边界。
  • 接口类型:采用网格阵列(LGA)压缩接口,消除引脚插座的寄生电感。
  • 能效:通过采用LPDDR5X(低功耗DDR)技术,SOCAMM模块功耗较标准DDR5降低30-40%,这对维持液冷鲁宾超级计算机的热设计功耗至关重要。


深入探索基于NVMe存储的RDMA互联结构

在NVIDIA Rubin平台及其ICMS(推理上下文内存存储)架构中,基于NVMe存储的RDMA互联结构构成了实现“千兆级”内存的物理与逻辑骨干。
2026年初,该技术将构建全球KV缓存池,实现数千块GPU共享海量持久化内存空间。

-

1) RDMA:“无CPU”数据路径

  • RDMA(远程直接内存访问)使服务器机架中的GPU或DPU无需操作系统或CPU介入,即可访问其他机架的内存或存储。
  • 零拷贝:数据直接从存储控制器(NVMe)传输至GPU的HBM4或系统DRAM,彻底消除标准TCP/IP网络中的“二次缓冲”过程。
  • 超低延迟:在Rubin超级集群中,基于Spectrum-4/6以太网的RDMA(RoCE v2)实现亚微秒级延迟。这至关重要,因为若键值缓存未能及时送达GPU,推理过程将“停滞”,AI代理的响应随之中断。

-

2) NVMe存储:高速数据池

  • 该架构的“后端”由NVMe(非易失性内存高速接口)固态硬盘构成,通常通过BlueField-4 DPU集成至Rubin机架。
  • 吞吐量:到2026年,PCIe Gen 6 NVMe驱动器将实现单盘最高28 GB/s的传输速度。
  • NAND分层存储:ICMS采用高耐用性ZNS(分区命名空间)NVMe技术,针对AI令牌的顺序读写模式进行优化,即使在持续推理的高写入周期下也能延长驱动器寿命。
  • 扩展性:该后端架构突破单盘限制,由DPU管理的JBOD(Just a Bunch of Flash)阵列可为每块DPU提供高达150TB的上下文存储空间。

-

3) WEKA与VAST集成方案

  • WEKA及VAST Data等合作伙伴的软件层构建于硬件之上实现数据管理:
  • 分布式文件系统:将数千块物理NVMe驱动器呈现为单一巨型命名空间(代币仓库)。
  • 动态分层存储:AI代理运行时,“热”上下文数据保留在DRAM(G2层),“温”数据通过RDMA推送至NVMe后端(G3.5层)。若代理闲置一小时,数据将迁移至G4(冷)层。
  • 并行性:基于RDMA架构,100个独立GPU可同时读取同一NVMe支持的上下文,且不会形成瓶颈。

-

4) 这对 Rubin (2026) 的重要性

  • 在采用 RDMA-NVMe 架构之前,AI 模型受限于 GPU 上约 288GB 的​​ HBM 内存。如果上下文窗口超出此限制,系统就必须“遗忘”或“重新计算”。
  • 内存墙解决方案:通过使用 RDMA 连接的 NVMe 架构,Rubin 平台有效地为每个 GPU 提供了 PB 级的“虚拟 HBM”内存。
  • 智能体连续性:这使得 AI 智能体能够通过 RDMA 从 NVMe 后端提取键值缓存,在几毫秒内“记住”三个月前的对话,而无需重新读取和处理整个对话记录。

-

5) 技术栈概述

分层 技术 功能
传输层 RoCE v2 / InfiniBand 无需 CPU 开销即可传输数据的协议。
互联层 Spectrum-6 / ConnectX-9 面向结构的 1.6 Tb/s 物理硬件。
控制器 BlueField-4 DPU 管理对存储的 RDMA 请求的"大脑"。
存储介质 PCIe 第 6 代 NVMe SSD 存储令牌的物理位置。
编排 WEKA / NVIDIA Dynamo 决定哪些令牌移动到何处的软件。

目前,微软 Azure 和 AWS 都将采用这种架构来扩展其在 2026 年的百万级令牌上下文服务。NVIDIA 网络解决方案 WEKA 数据平台



NVIDIA超级集群 vs 亚马逊SageMaker超级集群 NVIDIA Superpod vs Amazon SageMaker HyperPod

NVIDIA DGX超级集群和亚马逊SageMaker超级集群都旨在使用数千个GPU来处理大规模的AI训练(大型语言模型、生成式AI),但它们代表了两种不同的方法:即开即用的本地硬件(超级集群) vs. 托管的云基础设施(超级集群)。

NVIDIA DGX超级集群是一个高性能、集成、完全优化的即开即用 AI 数据中心基础设施——一个 AI "工厂",通常部署在本地或托管中心,利用NVIDIA DGX系统、InfiniBand网络和高性能存储。

亚马逊SageMaker超级集群是亚马逊云计算服务(AWS)上的一个托管、专门定制的服务,为大规模训练和微调基础模型提供一个弹性、预配置的集群环境,减少了基础设施管理的繁重工作。

-

特征 NVIDIA DGX超级集群 亚马逊SageMaker超级集群
模式 即开即用的本地硬件 托管云服务(AWS)
控制 全面、深层级控制 管理;抽象基础设施
GPU硬件 最新的NVIDIA DGX(如H100、B200) 最新的NVIDIA(H100、B200、P5/P6)& Trainium
网络 NVIDIA InfiniBand (量子) AWS Elastic Fabric Adapter (EFA)
安装时间 几个月(物理安装) 几分钟到几天(云配置)
弹性 手动或自定义编排 自动恢复/故障容忍
软件栈 BaseCommand/BasePOD 软件 深度学习 AMI、Slurm/EKS、PyTorch/TensorFlow

-

关键差异

基础设施管理和部署:

  • 超级集群是对物理基础设施的投资。它需要数据中心空间、电力、冷却和手动维护,但在没有干扰邻居的情况下提供最大性能。
  • 超级集群在AWS上提供了一个“预制”环境。它自动处理编排、网络设置(如EFA)和存储(如FSx用于Lustre),将设置时间从几个月减少到几分钟。

灵活性和定制化:

  • 超级集群允许对软件栈、网络和硬件配置进行深度级别的自定义。
  • 超级集群提供了在选择编排(Slurm或Amazon EKS)和支持自定义生命周期脚本方面的灵活性,但在AWS生态系统的范围内运行。

弹性和可靠性:

  • 超级集群专为长期运行的作业(数月之久)而设计,具有内置自动恢复功能。它在训练过程中自动检测和替换有故障的节点,减少了对频繁检查点的需求。
  • 超级集群要求用户实施自己的弹性框架(例如使用Slurm和NCCL)。

与AI框架的集成:

  • 超级集群针对NVIDIA的软件栈(BaseCommand/NeMo)进行了优化。
  • 超级集群与Amazon SageMaker库深度集成,进行分布式训练,但也与NVIDIA NeMo 2.0和Run:ai集成,提供混合云方法。

-

何时选择
选择NVIDIA DGX超级集群如果:

  • 你需要专用的、无妥协的、最大性能的基础设施,有管理高密度硬件的数据中心能力,或者有严格的数据主权要求,阻止公共云使用。

选择Amazon SageMaker超级集群如果:

  • 你需要快速开始训练而无需管理数据中心基础设施,需要弹性扩展,或者想要一个为长时间运行、多节点作业提供自动恢复的托管环境。
  • 协同关系注释:NVIDIA Run:ai现在与SageMaker超级集群整合,允许组织管理在本地(超级集群)和云(超级集群)环境中的复杂训练。

Top comments (0)