DEV Community

cognitalk
cognitalk

Posted on

NVIDIA(英伟达)全新发布的 Nemotron 3 Ultra(Mamba混合架构)开源大模型

在这段视频中,博主 Prompt Engineer 对 NVIDIA(英伟达)全新发布的 Nemotron 3 Ultra 开源大模型进行了全面且深度细致的评测。他没有只看跑分,而是通过 NVIDIA 提供的免费 API 进行了 10 个真实任务的实测(从简单到地狱级难度)

以下是视频内容的完整、详细拆解:


核心背景与架构参数 [00:00]

  • 定位:这是一款拥有 550B(5500亿)总参数的开源模型,专为需要长时间运行(数小时而非数秒)的 AI Agent(智能体) 打造,主打长期规划和工具调用能力。
  • 架构:采用 Mamba + Transformer 混合架构的混合专家模型(MoE)。总参数 550B,但处理单个 Token 时仅需激活 55B(550亿)。Mamba 层可以大幅降低长文本的计算成本,而 MoE 的路由机制则能提供顶尖模型(Frontier-level)的输出质量。
  • 训练数据:使用了多层在线策略蒸馏(Multi-tier on-policy distillation),由 10 多个专家老师模型来教 1 个学生模型。在 10 万亿(10T)Token 的基座上,加入了 2120 亿(212B)最新的数据(包括截至 2025 年底最新的 GitHub 代码),因此其编码知识非常新。
  • 长文本与跑分:支持高达 100 万 Token(1M Context) 的上下文窗口。在长文本 Ruler 测试中达到了 95% 的准确率(能精准在长文中“大海捞针”)。在各类基准测试中(Terminal-bench、SWE-bench、IFBench、PinchBench),均拿到了通常只有闭源商业模型才能达到的极高分数。
  • 速度与授权:在 Blackwell 架构、NVFP4 量化以及多 Token 预测技术加持下,吞吐量可达同类开源模型的 5 倍。更重要的是,它基于非常宽松的 OpenMDW 许可证开源,权重、代码、文档全部开放。
  • 家族新成员:同场发布的还有 Nemotron 3.5 Safety(安全护栏模型,覆盖 23 种风险类别)和 3.5 ASR(语音识别模型,已在为 GitHub Copilot 的命令行工具提供支持,服务超 2000 万开发者)。

10 个真实测试任务实测 [02:32]

博主强调,他亲自执行了模型生成的每一行代码,并纯手工推导验证了数学题。以下是测试详情:

1. 概念解释(简单)[02:50]

  • 任务:用一句话解释什么是混合专家模型(MoE)。
  • 结果通过。模型精准指出了“Token 路由、学习门控机制、恒定单 Token 计算量”,展现出清晰的自我架构认知。

2. 语气控制(简单)[03:06]

  • 任务:将一段生硬学术的光合作用定义,改写给 5 岁小孩听。
  • 结果通过。模型给出了两句非常短的话(“植物利用阳光制作自己的糖果食物,这给它们能量让它们长得又大又壮”),阅读理解水平切合得极其完美。

3. 代码编写(中等)[03:26]

  • 任务:写一个忽略大小写和标点符号的回文检查器(Palindrome Checker)。
  • 结果通过。博主将模型生成的 Python 代码丢进真实环境,跑了 4 个测试用例,全部一次性完美通过。

4. 逻辑陷阱(中等)[03:41]

  • 任务:经典逻辑题:“如果 5 台机器在 5 分钟内能生产 5 个零件,那么 100 台机器生产 100 个零件需要多少分钟?”
  • 结果通过。模型没有踩坑,准确推理出机器是并行的,因此 100 台机器生产 100 个零件同样只需要 5 分钟。

5. 结构化数据提取(中等)[04:00]

  • 任务:从一段关于“34 岁工程师搬去里斯本”的凌乱句子中,严格提取 JSON 格式。
  • 结果通过。返回了完全符合规范、无损坏的 JSON(包含姓名、年龄、城市、职业),无需任何人工修复,非常适合 Agent 工作流。

6. 原生工具/函数调用(中等)[04:17]

  • 任务:提供一个天气函数,询问“东京的天气,摄氏度”。
  • 结果通过。模型没有胡编一个数字,而是正确触发并输出了函数调用(get_weather(city="Tokyo", unit="C")),展现了 Agent 的核心交接能力。

7. 残酷极值约束(困难)[04:37]

  • 任务:写一首关于 GPU 的四行诗,要求:每行必须刚好 6 个单词,且整首诗绝对不能出现字母 "E"
  • 结果通过。完全满足了所有严苛的限制。但有一个代价:它在后台疯狂消耗了超过 4200 个推理(Thinking)Token 拼命打磨才憋出来。

8. 计算机算法实现(困难)[04:59]

  • 任务:实现一个 LRU 缓存淘汰算法,要求 getput 的时间复杂度均为 $O(1)$。
  • 结果通过。模型给出了教科书级的标准设计(哈希表 + 双向链表,带虚拟头尾节点)。博主实际运行了淘汰测试,代码的高效和正确性无懈可击。

9. 长周期规划(困难)[05:17]

  • 任务:规划如何将一个 20 万行的 Django 单体架构,做到零停机(Zero-downtime)迁移至微服务。
  • 结果通过。模型给出了极其专业的资深架构师级方案,包含绞杀者模式(Strangler Pattern)迭代、带有应对策略的风险表、绑定错误率的自动回滚触发器,甚至给出了具体要运行的命令行工具。

10. 硬核数学(困难)[05:37]

  • 任务:计算 1000 以内,既不能被 5 整除也不能被 7 整除的正整数有多少个?
  • 结果通过。模型清晰地一步步展示了“容斥原理”的推导(先算 5 的倍数、7 的倍数,再加回 35 的倍数),最终得出答案 686。经博主手工核对,结果完全正确。

终榜成绩与客观的“避坑指南” [05:58]

最终得分 10/10 完美通过。但博主也在视频最后非常真诚地分享了该模型目前的几点限制与 Honest Cons:

  1. 免费 API 的排队问题:虽然一旦开始生成,速度可以达到 15~30 Token/秒,但在免费线上渠道,吐出第一个 Token 之前的“首字延迟(TTFT)”波动极大,从几秒到 5 分钟不等,需要极大的耐心。
  2. “思考模式”极其烧 Token:它的 Reasoning Mode(思维链)虽然强大,但非常贪婪。比如写前面那个无“E”的简短小诗,就花掉了 4000 多个推理 Token。在商业使用中,你必须为这些吃进去的 Token 买单。
  3. 它是数据中心模型,绝非本地轻量级:不要被“开源”这两个字骗了。由于它庞大的 550B 参数量,你不可能在笔记本电脑上跑本地部署。它依然需要部署在数据中心,或者使用昂贵、严肃的多卡 GPU 服务器,一般用户建议直接调 API。

博主结论:这是一个在代码执行、数学和 Agent 链路上展现出惊人实力的开源怪兽模型,有兴趣的开发者目前可以在 build.nvidia.com 免费接入体验。




除了 NVIDIA 这次刚发布的 Nemotron 3 Ultra 之外,在 AI 业界和开源社区中,Mamba 混合架构(Hybrid Mamba-Transformer / MoE) 已经诞生了几个非常有代表性、评测效果和工程落地表现都相当惊艳的明星模型。

对于追求极致工程优化(如 KVCache 瘦身、长上下文外推、高吞吐)的开发者来说,以下这几个模型最值得关注:


1. AI21 Labs — Jamba 系列(Jamba 1.5 Large / Mini)

要谈 Mamba 混合架构的商业化和开源标杆,首推 AI21 Labs 的 Jamba 系列。它是业内第一个真正达到企业级实用标准的 Transformer-Mamba-MoE 混合架构。

  • 架构设计:它采用了 Interleaved(交错) 模式。每 8 层中,包含 1 层 Transformer Attention(注意力)层和 7 层 Mamba(状态空间模型)层,同时将 FFN(前馈网络)替换为了 MoE(混合专家)。
  • 工程与评测优势
  • KVCache 缩减近 8 倍:由于绝大多数层是 Mamba,它在处理 256K 极致长上下文时,所需的 KV Cache 内存只有同体量纯 Transformer 模型的 $\frac{1}{8}$。
  • 极高吞吐量:在长文本推理或高并发 Agent 场景下,其吞吐量远超同尺寸的 Llama 等模型。
  • 评测表现:Jamba 1.5 Large(总参数 94B,激活 12B)在多语言、长文本大海捞针(RULER)、以及 RAG 开发基准上,表现完全不输甚至超越了当时纯 Transformer 的 Llama 3 70B。在 vLLM 等主流推理框架中,Jamba 的算子优化支持已经非常成熟。

2. Mistral AI — Codestral Mamba

开源顶流 Mistral AI 在代码大模型上也进行过 Mamba 架构的成功探索,推出了 Codestral Mamba 7B

  • 架构设计:虽然它更偏向纯 Mamba 变体(基于 Mamba-2 架构),但它在长上下文序列和代码生成中,巧妙地结合了对硬件友好的特性。
  • 工程与评测优势
  • 原生支持高达 256K 上下文
  • 推理速度极快:得益于 Mamba 的线性时间复杂度(Linear Time Complexity),在进行长代码仓库(Repository-level)的理解与Speculative Decoding(投机解码)时,展现了极强的推理时延优势。
  • 评测表现:作为 7B 的模型,它在 HumanEval 以及多语言代码测试中,直接和当时几倍于它体量的纯 Transformer 模型打平,属于典型的“小身材、高效率”。

3. IBM — Granite 3.0 / 4.0 系列 (包含 Mamba 混合体)

IBM 的 Granite 家族在企业级应用中,非常激进地引入了 Granite Mamba 混合版本

  • 架构设计:IBM 针对长文本 RAG 和工具链(Tool Use)场景,将 Attention 的强全局关联能力与 Mamba 的线性内存增长特性做了科学配比。
  • 工程与评测优势
  • 针对高并发的金融、法律长文本总结场景,Granite 混合模型大幅降低了企业在线上部署时的 Time-to-First-Token (TTFT) 和每秒生成 Token 数(Throughput)的成本。
  • 在工具调用(Function Calling)的严苛指令遵循(Instruction Following)测试中,其效果基本媲美纯注意力模型,而算力开销显著降低。

4. 腾讯 — Hunyuan-TurboS

在中文社区及大规模工业落地中,腾讯的 Hunyuan 团队推出了基于 AMF(Attention-Mamba-MoE) 混合宏观模式的 Hunyuan-TurboS

  • 架构设计:将高效的状态空间 Mamba 层、用于保留强 Pairwise 关联的 Transformer Attention 层(通常配合 GQA 或 Windowed Attention 减负)以及动态 MoE 门控路由完美融为一体。
  • 工程与评测优势
  • 该模型专为国内超大流量的云端 Agent 调度和长文本 RAG 业务深度定制。
  • 由于引入了 Mamba 块,它的全序列卷积/递归加速在现代 GPU 上通过算子融合(Kernel Fusion)和高效并行(Parallel Scan)得到了极致释放,是非常典型的“面向高吞吐工程”设计的混合模型。

💡 为什么这类“Mamba混合架构”在 2026 年这么火?

对于 LLM 的极致工程优化而言,纯 Transformer 在长上下文下面临两大死穴:KV Cache 内存爆炸Attention 算力的二次方复杂度 $O(T^2)$

通过引入 Mamba,这些混合模型实现了:

  1. $O(T)$ 线性复杂度:Amortize(摊销)了 Attention 的计算成本。
  2. Constant Cache Size:Mamba 层的状态大小是恒定的,不需要随上下文拉长而疯狂吃显存,这就给 PD 分离(Prefill/Decode 分离)RadixAttention 缓存复用 腾出了海量的显存空间。

你在关注哪些具体的推理框架(比如 vLLM 或 SGLang)对这类 Mamba 混合架构的算子融合(Kernel Fusion)或 Prefix Caching 支持情况吗?

Top comments (0)