英伟达发布Rubin CPX，瞄准超长上下文处理，黄仁勋称一次推理数百万token

发布时间：2025-09-10 14:32:23 作者：玩站小弟

文／田暐玮「韩流帝王」Super。

美东时间9月9日周二，英伟达发布新一代Rubin CPX芯片系统，专门针对AI视频生成和软件开发等大规模上下文处理任务，强化AI编码和视频处理能力。

Rubin CPX定于2026年底上市，采用卡片形式，可集成到现有服务器设计中或作为独立计算设备在数据中心运行。

这款芯片系统在技术规格上实现重大突破。Rubin CPX GPU提供30千万亿次浮点（petaflops）运算能力（NVFP4精度），配备128GB GDDR7内存，支持视频解码和编码的硬件，相比英伟达GB300 NVL72系统，注意力加速3倍。

完整的Vera Rubin NVL144 CPX平台在单个机架中集成144个Rubin CPX GPU、144个Rubin GPU和36个Vera CPU，提供8 exaflops AI性能，性能为英伟达GB300 NVL72系统的7.5倍。

英伟达CEO黄仁勋表示，Rubin CPX是首款专为百万级token处理而构建的CUDA GPU。他说：

"正如RTX革命性地改变了图形和物理AI，Rubin CPX是首款专为大规模上下文AI而构建的CUDA GPU，模型可以同时进行数百万个知识token的推理。"

英伟达宣称，新芯片的投资回报率达到30至50倍，部署价值1亿美元的新芯片硬件将为客户带来高达50亿美元收入，即从1亿美元的资本支出中获得高达50亿美元的收入。该预测强调了英伟达对AI基础设施商业价值的量化努力。

技术创新：分离式推理架构提升效率

Rubin CPX采用分离式推理架构，将AI计算过程分为上下文阶段和生成阶段。上下文阶段需要高吞吐量计算来处理大量输入数据，而生成阶段则依赖快速内存传输和高速互连。

这种设计允许两个阶段独立处理，实现计算和内存资源的精准优化。Rubin CPX专门针对计算密集型的上下文阶段进行优化，与现有基础设施协同工作，提供3倍的注意力加速性能。

该平台配备100TB高速内存和每秒1.7千万亿字节的内存带宽，通过英伟达Quantum-X800 InfiniBand或Spectrum-X以太网连接，由Dynamo平台统一协调。

应用场景：重塑软件开发和视频生成

在软件开发领域，Rubin CPX使AI系统能够处理整个代码库，维护跨文件依赖关系，理解仓库级结构。这将编程助手从自动完成工具转变为智能协作伙伴，能够理解"大规模软件项目"。

视频生成方面，该系统可在单个芯片上完成解码、编码和处理，AI模型能够处理多达100万个token的一小时内容。这为长视频内容生成提供了前所未有的连贯性和记忆能力。

多家公司已表达合作意向。代码生成公司Cursor计划使用该技术进行代码生成，视频创作平台Runway将其应用于视频生成工作流程，AI研究公司Magic则计划利用该技术构建具有1亿token上下文窗口的基础模型。

市场影响：巩固英伟达AI基础设施优势

Rubin CPX的发布进一步巩固了英伟达在AI基础设施领域的领先地位。据分析师估计，英伟达的数据中心业务本财年收入有望达到1840亿美元，超过业内其他公司的总收入。

该产品体现了英伟达在硬件和软件创新方面的持续投入，这种速度是竞争对手尚未匹及的。通过专门针对特定AI工作负载优化硬件，英伟达继续保持行业对其产品的依赖。

新平台预计将为企业构建下一代生成式AI应用创造新的可能性，特别是在需要处理大规模上下文的高价值推理用例中。这标志着AI基础设施从通用计算向专用优化的重要转变。

奶茶视频APP,奶茶视频下载,奶茶视频app官网,奶茶视频app海纳百川有容乃大