cognitalk

Posted on Jun 5 • Edited on Jun 8

NVIDIA（英伟达）全新发布的 Nemotron 3 Ultra(Mamba混合架构)开源大模型

#ai #podcast #mamba #hybridarchitecture

https://www.youtube.com/watch?v=YfiHDPrUXP8

在这段视频中，博主 Prompt Engineer 对 NVIDIA（英伟达）全新发布的 Nemotron 3 Ultra 开源大模型进行了全面且深度细致的评测。他没有只看跑分，而是通过 NVIDIA 提供的免费 API 进行了 10 个真实任务的实测（从简单到地狱级难度）。

以下是视频内容的完整、详细拆解：

核心背景与架构参数 [00:00]

定位：这是一款拥有 550B（5500亿）总参数的开源模型，专为需要长时间运行（数小时而非数秒）的 AI Agent（智能体） 打造，主打长期规划和工具调用能力。
架构：采用 Mamba + Transformer 混合架构的混合专家模型（MoE）。总参数 550B，但处理单个 Token 时仅需激活 55B（550亿）。Mamba 层可以大幅降低长文本的计算成本，而 MoE 的路由机制则能提供顶尖模型（Frontier-level）的输出质量。
训练数据：使用了多层在线策略蒸馏（Multi-tier on-policy distillation），由 10 多个专家老师模型来教 1 个学生模型。在 10 万亿（10T）Token 的基座上，加入了 2120 亿（212B）最新的数据（包括截至 2025 年底最新的 GitHub 代码），因此其编码知识非常新。
长文本与跑分：支持高达 100 万 Token（1M Context） 的上下文窗口。在长文本 Ruler 测试中达到了 95% 的准确率（能精准在长文中“大海捞针”）。在各类基准测试中（Terminal-bench、SWE-bench、IFBench、PinchBench），均拿到了通常只有闭源商业模型才能达到的极高分数。
速度与授权：在 Blackwell 架构、NVFP4 量化以及多 Token 预测技术加持下，吞吐量可达同类开源模型的 5 倍。更重要的是，它基于非常宽松的 OpenMDW 许可证开源，权重、代码、文档全部开放。
家族新成员：同场发布的还有 Nemotron 3.5 Safety（安全护栏模型，覆盖 23 种风险类别）和 3.5 ASR（语音识别模型，已在为 GitHub Copilot 的命令行工具提供支持，服务超 2000 万开发者）。

10 个真实测试任务实测 [02:32]

博主强调，他亲自执行了模型生成的每一行代码，并纯手工推导验证了数学题。以下是测试详情：

1. 概念解释（简单）[02:50]

任务：用一句话解释什么是混合专家模型（MoE）。
结果：通过。模型精准指出了“Token 路由、学习门控机制、恒定单 Token 计算量”，展现出清晰的自我架构认知。

2. 语气控制（简单）[03:06]

任务：将一段生硬学术的光合作用定义，改写给 5 岁小孩听。
结果：通过。模型给出了两句非常短的话（“植物利用阳光制作自己的糖果食物，这给它们能量让它们长得又大又壮”），阅读理解水平切合得极其完美。

3. 代码编写（中等）[03:26]

任务：写一个忽略大小写和标点符号的回文检查器（Palindrome Checker）。
结果：通过。博主将模型生成的 Python 代码丢进真实环境，跑了 4 个测试用例，全部一次性完美通过。

4. 逻辑陷阱（中等）[03:41]

任务：经典逻辑题：“如果 5 台机器在 5 分钟内能生产 5 个零件，那么 100 台机器生产 100 个零件需要多少分钟？”
结果：通过。模型没有踩坑，准确推理出机器是并行的，因此 100 台机器生产 100 个零件同样只需要 5 分钟。

5. 结构化数据提取（中等）[04:00]

任务：从一段关于“34 岁工程师搬去里斯本”的凌乱句子中，严格提取 JSON 格式。
结果：通过。返回了完全符合规范、无损坏的 JSON（包含姓名、年龄、城市、职业），无需任何人工修复，非常适合 Agent 工作流。

6. 原生工具/函数调用（中等）[04:17]

任务：提供一个天气函数，询问“东京的天气，摄氏度”。
结果：通过。模型没有胡编一个数字，而是正确触发并输出了函数调用（get_weather(city="Tokyo", unit="C")），展现了 Agent 的核心交接能力。

7. 残酷极值约束（困难）[04:37]

任务：写一首关于 GPU 的四行诗，要求：每行必须刚好 6 个单词，且整首诗绝对不能出现字母 "E"。
结果：通过。完全满足了所有严苛的限制。但有一个代价：它在后台疯狂消耗了超过 4200 个推理（Thinking）Token 拼命打磨才憋出来。

8. 计算机算法实现（困难）[04:59]

任务：实现一个 LRU 缓存淘汰算法，要求 get 和 put 的时间复杂度均为 $O(1)$。
结果：通过。模型给出了教科书级的标准设计（哈希表 + 双向链表，带虚拟头尾节点）。博主实际运行了淘汰测试，代码的高效和正确性无懈可击。

9. 长周期规划（困难）[05:17]

任务：规划如何将一个 20 万行的 Django 单体架构，做到零停机（Zero-downtime）迁移至微服务。
结果：通过。模型给出了极其专业的资深架构师级方案，包含绞杀者模式（Strangler Pattern）迭代、带有应对策略的风险表、绑定错误率的自动回滚触发器，甚至给出了具体要运行的命令行工具。

10. 硬核数学（困难）[05:37]

任务：计算 1000 以内，既不能被 5 整除也不能被 7 整除的正整数有多少个？
结果：通过。模型清晰地一步步展示了“容斥原理”的推导（先算 5 的倍数、7 的倍数，再加回 35 的倍数），最终得出答案 686。经博主手工核对，结果完全正确。

终榜成绩与客观的“避坑指南” [05:58]

最终得分 10/10 完美通过。但博主也在视频最后非常真诚地分享了该模型目前的几点限制与 Honest Cons：

免费 API 的排队问题：虽然一旦开始生成，速度可以达到 15~30 Token/秒，但在免费线上渠道，吐出第一个 Token 之前的“首字延迟（TTFT）”波动极大，从几秒到 5 分钟不等，需要极大的耐心。
“思考模式”极其烧 Token：它的 Reasoning Mode（思维链）虽然强大，但非常贪婪。比如写前面那个无“E”的简短小诗，就花掉了 4000 多个推理 Token。在商业使用中，你必须为这些吃进去的 Token 买单。
它是数据中心模型，绝非本地轻量级：不要被“开源”这两个字骗了。由于它庞大的 550B 参数量，你不可能在笔记本电脑上跑本地部署。它依然需要部署在数据中心，或者使用昂贵、严肃的多卡 GPU 服务器，一般用户建议直接调 API。

博主结论：这是一个在代码执行、数学和 Agent 链路上展现出惊人实力的开源怪兽模型，有兴趣的开发者目前可以在 build.nvidia.com 免费接入体验。

除了 NVIDIA 这次刚发布的 Nemotron 3 Ultra 之外，在 AI 业界和开源社区中，Mamba 混合架构（Hybrid Mamba-Transformer / MoE） 已经诞生了几个非常有代表性、评测效果和工程落地表现都相当惊艳的明星模型。

对于追求极致工程优化（如 KVCache 瘦身、长上下文外推、高吞吐）的开发者来说，以下这几个模型最值得关注：

1. AI21 Labs — Jamba 系列（Jamba 1.5 Large / Mini）

要谈 Mamba 混合架构的商业化和开源标杆，首推 AI21 Labs 的 Jamba 系列。它是业内第一个真正达到企业级实用标准的 Transformer-Mamba-MoE 混合架构。

架构设计：它采用了 Interleaved（交错） 模式。每 8 层中，包含 1 层 Transformer Attention（注意力）层和 7 层 Mamba（状态空间模型）层，同时将 FFN（前馈网络）替换为了 MoE（混合专家）。
工程与评测优势：
KVCache 缩减近 8 倍：由于绝大多数层是 Mamba，它在处理 256K 极致长上下文时，所需的 KV Cache 内存只有同体量纯 Transformer 模型的 $\frac{1}{8}$。
极高吞吐量：在长文本推理或高并发 Agent 场景下，其吞吐量远超同尺寸的 Llama 等模型。
评测表现：Jamba 1.5 Large（总参数 94B，激活 12B）在多语言、长文本大海捞针（RULER）、以及 RAG 开发基准上，表现完全不输甚至超越了当时纯 Transformer 的 Llama 3 70B。在 vLLM 等主流推理框架中，Jamba 的算子优化支持已经非常成熟。

2. Mistral AI — Codestral Mamba

开源顶流 Mistral AI 在代码大模型上也进行过 Mamba 架构的成功探索，推出了 Codestral Mamba 7B。

架构设计：虽然它更偏向纯 Mamba 变体（基于 Mamba-2 架构），但它在长上下文序列和代码生成中，巧妙地结合了对硬件友好的特性。
工程与评测优势：
原生支持高达 256K 上下文。
推理速度极快：得益于 Mamba 的线性时间复杂度（Linear Time Complexity），在进行长代码仓库（Repository-level）的理解与Speculative Decoding（投机解码）时，展现了极强的推理时延优势。
评测表现：作为 7B 的模型，它在 HumanEval 以及多语言代码测试中，直接和当时几倍于它体量的纯 Transformer 模型打平，属于典型的“小身材、高效率”。

3. IBM — Granite 3.0 / 4.0 系列 (包含 Mamba 混合体)

IBM 的 Granite 家族在企业级应用中，非常激进地引入了 Granite Mamba 混合版本。

架构设计：IBM 针对长文本 RAG 和工具链（Tool Use）场景，将 Attention 的强全局关联能力与 Mamba 的线性内存增长特性做了科学配比。
工程与评测优势：
针对高并发的金融、法律长文本总结场景，Granite 混合模型大幅降低了企业在线上部署时的 Time-to-First-Token (TTFT) 和每秒生成 Token 数（Throughput）的成本。
在工具调用（Function Calling）的严苛指令遵循（Instruction Following）测试中，其效果基本媲美纯注意力模型，而算力开销显著降低。

4. 腾讯 — Hunyuan-TurboS

在中文社区及大规模工业落地中，腾讯的 Hunyuan 团队推出了基于 AMF（Attention-Mamba-MoE） 混合宏观模式的 Hunyuan-TurboS。

架构设计：将高效的状态空间 Mamba 层、用于保留强 Pairwise 关联的 Transformer Attention 层（通常配合 GQA 或 Windowed Attention 减负）以及动态 MoE 门控路由完美融为一体。
工程与评测优势：
该模型专为国内超大流量的云端 Agent 调度和长文本 RAG 业务深度定制。
由于引入了 Mamba 块，它的全序列卷积/递归加速在现代 GPU 上通过算子融合（Kernel Fusion）和高效并行（Parallel Scan）得到了极致释放，是非常典型的“面向高吞吐工程”设计的混合模型。

💡 为什么这类“Mamba混合架构”在 2026 年这么火？

对于 LLM 的极致工程优化而言，纯 Transformer 在长上下文下面临两大死穴：KV Cache 内存爆炸 和 Attention 算力的二次方复杂度 $O(T^2)$。

通过引入 Mamba，这些混合模型实现了：

$O(T)$ 线性复杂度：Amortize（摊销）了 Attention 的计算成本。
Constant Cache Size：Mamba 层的状态大小是恒定的，不需要随上下文拉长而疯狂吃显存，这就给 PD 分离（Prefill/Decode 分离）、RadixAttention 缓存复用 腾出了海量的显存空间。

你在关注哪些具体的推理框架（比如 vLLM 或 SGLang）对这类 Mamba 混合架构的算子融合（Kernel Fusion）或 Prefix Caching 支持情况吗？

DEV Community