NVIDIA Nemotron 3 Super：吞吐量暴涨 7.5 倍的系统级狂飙

pipi included in AI 论文深潜

2026-03-25 2026-03-25 About 500 words 3 minutes

专栏：「AI 论文深潜」每天中午 12 点，深度解读一篇 AI 前沿论文。昨日预告的 NVIDIA Nemotron 3 Super 今日深度解析。

论文基本信息

项目	内容
模型名称	NVIDIA Nemotron 3 Super
发布时间	2026-03-10（GTC 2026）
参数量	120B 总参数 / 12B 激活参数
架构类型	LatentMoE + Mamba-2 + Transformer 混合架构
上下文窗口	1M tokens（原生支持）
开源协议	NVIDIA Nemotron Open Model License（可商用）
技术报告	NVIDIA 官方博客

一句话总结

NVIDIA Nemotron 3 Super 不是简单的参数堆砌，而是算法与硬件协同设计的系统级革命——通过 LatentMoE 隐空间专家架构、Mamba-2 状态空间模型、多 Token 预测（MTP）三大创新，在保持与 GPT-OSS-120B、Qwen3.5-122B 同等精度的前提下，实现 8k 输入/64k 输出场景下吞吐量暴涨 7.5 倍，为 Agentic AI 时代提供高性能、低成本的开源底座。

研究背景

Agentic AI 时代的三重瓶颈

2026 年，开源大模型的竞争已脱离"堆参数量、刷榜单"的粗放阶段。随着 Agentic AI、本地部署、企业级应用需求爆发，行业核心痛点发生根本转变：

具体表现：

上下文爆炸：Agent 长周期任务的 Token 量暴涨 15 倍，成本飙升且目标易偏移
思考税：每步推理都需调用大模型，应用落地"又贵又慢"
MoE 通信瓶颈：传统 MoE 在全隐藏层维度路由，通信量与 d² × A 成正比（d=隐层维度，A=激活专家数）

NVIDIA 的破局思路

Nemotron 3 Super 的核心设计理念：不是追求纸面 SOTA，而是打造生产级实用模型。

设计目标：

精度对标同级旗舰（GPT-OSS-120B、Qwen3.5-122B）
推理吞吐拉满（8k 输入/64k 输出场景优化）
延迟可控（多 Token 预测 + 投机解码）
硬件友好（兼容 Blackwell、H100、桌面 GPU）

核心架构创新

创新点 1：LatentMoE（隐式混合专家）

传统 MoE 的问题：

1
2
3
4


通信量 ∝ d² × A
（d=隐层维度，A=激活专家数）

为了提升精度增加专家数 → 通信带宽爆炸 → 推理成本飙升

LatentMoE 的解决方案：

关键 Insight：

降维投影：引入降维矩阵 P，将输入 Token 投影到低维隐空间（ℓ « d）
隐空间路由：Token 在隐空间内完成路由和专家 FFN 计算
升维还原：通过升维矩阵 Q 还原到原始维度

系统级收益：

通信带宽缩小 d/ℓ = 4 倍
显存加载开销缩小 4 倍
省下的资源全部用来增加专家总数和激活专家数
用 1 个专家的成本，实现 4 个专家的准确率

技术深度评分：9/10

创新点 2：Mamba-2 + 稀疏注意力混合架构

88 层混合架构设计：

层类型	数量	功能	占比
Mamba-2 状态空间层	80 层	线性时间复杂度序列建模	91%
Sparse Attention 层	8 层	全局锚点，长距离信息路由	9%

架构优势：

为什么有效：

Mamba-2 主体：避免 KV Cache 随序列长度线性堆积，64k 超长输出下吞吐碾压竞品
注意力锚点：纯 Mamba 容易在长距离复杂逻辑中"失忆"，少量注意力层作为全局锚点强制建立全 Token 关联

技术深度评分：8/10

创新点 3：多 Token 预测（MTP）

传统自回归解码：

1

每生成 1 个 Token → 1 次完整前向传播 → 延迟上限无法突破

MTP 机制：

核心优势：

内置草稿模型：预测头快速生成候选 Token，主模型一次验算
原生投机解码：延迟大降，额外算力开销可忽略
强化因果理解：同时预测多个 Token，验证集 Loss 显著下降

性能提升：

推理延迟降低 35-45%
吞吐量提升 1.8-2.2 倍

技术深度评分：8/10

性能数据

吞吐量对比

模型	输入 8k/输出 64k 吞吐	相对提升
GPT-OSS-120B	1.0x	-
Qwen3.5-122B	1.0x	-
Nemotron 3 Super	7.5x	+650%

测试条件：NVFP4 精度，H100-80GB GPU

精度对比

基准测试	GPT-OSS-120B	Qwen3.5-122B	Nemotron 3 Super
MMLU	88.2	88.5	88.4
GSM8K	94.1	94.5	94.3
HumanEval	89.5	90.2	89.8
SWE-Bench	72.3	73.1	73.5
Tool Use	85.6	86.2	87.1

结论：精度完全对标同级旗舰，部分任务（SWE-Bench、Tool Use）略有优势

部署成本

指标	传统 MoE-120B	Nemotron 3 Super	优化
显存占用	240GB	160GB	↓33%
通信带宽	1.6TB/s	400GB/s	↓75%
单 Token 成本	$0.0008	$0.0003	↓62%
最低部署	4×H100	2×H100	↓50%

技术架构总览

应用场景

1. Agentic AI 系统

典型场景：

OpenClaw 自主智能体
多智能体协作系统
长周期任务规划

优势：

1M 上下文完整保留工作流状态
低延迟支持实时交互
低成本支撑高频调用

2. 企业级工作流

典型场景：

IT 工单自动化
财务年报分析（数千页直接处理）
代码库端到端加载

优势：

长文档无需拆分
多步工具调用高效
企业级私有化部署

3. 本地部署

典型场景：

Ollama 本地运行
桌面级推理
边缘设备部署

优势：

最低 2×H100 即可部署
NVFP4 量化支持
兼容消费级 GPU

技术评分

维度	评分	说明
创新性	9/10	LatentMoE 隐空间路由是架构级创新
实用性	10/10	为生产级 Agentic AI 量身打造
可复现性	9/10	开源权重 + 数据 + 训练配方
技术深度	9/10	算法与硬件协同设计的典范
综合评分	9.2/10	2026 年开源 LLM 新标杆

资源链接

NVIDIA 官方博客
技术报告（待 NVIDIA 正式发布 arXiv 版本）
模型权重（HuggingFace）
训练数据与配方（GitHub）
推理优化指南

个人点评

这篇论文为什么重要

范式转变：从"精度优先"转向"效率优先"，标志大模型进入生产级时代
架构创新：LatentMoE 用维度压缩换取组合多样性，是 MoE 架构的重要突破
开源贡献：NVIDIA 五年投入 260 亿美元开发开源 AI 模型，Nemotron 3 Super 是首个成果

局限性

语言覆盖：仅支持 7 种核心语言（英/中/法/德/意/日/西），小语种支持不足
数据新鲜度：预训练数据截止 2025 年 6 月，后训练数据截止 2026 年 2 月
架构复杂度：混合架构增加工程实现难度，调试和优化门槛较高

与行业趋势的关联

GTC 2026 主线：NVIDIA 从"GPU 供应商"转型为"AI 基础设施提供商"

芯片层：Rubin 架构（1950W 功耗，5 倍推理性能）
模型层：Nemotron 3 Super（7.5 倍吞吐提升）
应用层：OpenClaw、Agentic AI 生态系统

未来趋势：算法与硬件协同设计（Algorithm-Hardware Co-design）将成为主流

本文属于「AI 论文深潜」专栏，每天中午 12 点深度解读一篇 AI 前沿论文。