DEV Community

cognitalk
cognitalk

Posted on

MiniMax M3 大模型注意力机制上所做的重大颠覆与优化


http://www.youtube.com/watch?v=-zIF318p7J8
这视频由技术博主 Caleb Writes Code 发布,非常详细地拆解了 MiniMax 最新发布的 M3 大模型 在底层架构(尤其是注意力机制)上所做的重大颠覆与优化。

以下是视频内容的完整、无遗漏详细总结:


一、 背景与痛点:为什么“注意力机制”成了大模型的死穴?

视频开篇提到,Transformer 架构的核心是注意力机制(Attention)

  • 过去(2017年): 大模型刚诞生时,上下文窗口只有 500 到 1000 个 token,模型参数也小于 1B。当时硬件算力完全够用,全量注意力机制(Full Attention)的成本几乎可以忽略不计 [00:19]。
  • 现在(2026年): 随着模型变大、上下文窗口暴增到 100,000+ token,传统的多头注意力(MHA) 彻底沦为了性能瓶颈 [00:43]。

显卡的物理限制:算力 vs 带宽

很多本地部署大模型的人最关心模型有多大、显存够不够,但这只是问题的一面。推理(Inference)真正的死穴在于显卡内部的数据流动速度(带宽) [01:16]。

  • 显卡内部的 SRAM(静态随机存取内存)通常只有 10~100 MB,速度极快(计算速度在 Petaflops 级别) [01:30]。
  • 而存放大模型 KV Cache(键值缓存)HBM(高带宽内存),它与 SRAM 之间的数据传输速度只有每秒几个 Terabytes [01:30]。
  • 结论: 内部通信带宽和纯计算速度之间,有着 300倍以上的巨大瓶颈差异!在算力过剩、带宽不足的情况下,如何优化数据流动才是关键 [01:54]。

二、 行业通用的五大优化路线图(思维模型)

为了解决上述“带宽与算力瓶颈”,博主梳理了一个标准的行业优化框架(思维模型) [02:20]:

  1. 激活部分模型: 减少计算量(如 MoE 混合专家模型,而非传统的稠密模型) [02:42]。
  2. 量化模型权重: 降低数据类型复杂度(如 FP8、FP4,或本地常见的 AWQ、GGUF) [02:49]。
  3. 精简注意力机制: 不让每个 token 都和其它所有 token 做计算,只看相关的(如 稀疏注意力、线性注意力、DeepSeek 的 NSA/DSA) [03:04]。
  4. 缩减 KV Cache 体积: 通过分组改变结构(如从 MHA $\rightarrow$ GQA $\rightarrow$ MLA 的演进) [03:19]。
  5. 算子/内核级优化: 优化矩阵乘法和 I/O(如 Flash Attention) [03:34]。

三、 MiniMax M3 的核心技术突破

各大顶尖实验室通常会组合使用上述手段。而 MiniMax M3 这次做出了一个非常让人意外的决定从全量注意力(Full Attention)彻底转向了稀疏注意力(Sparse Attention) [04:06]。

幕后八卦: 就在 7 个月前的 Reddit AMA(问答互动)中,MiniMax 的 LLM 研究负责人还对稀疏注意力持怀疑、逃避态度,认为高效的稀疏注意力在生产环境中还没准备好。但现在,他们成功打脸了自己 [04:12]。

MiniMax M3 的底层核心由以下三者结合并对 I/O 进行了极限优化 [04:33]:

1. GQA(分组查询注意力)

让多个 Query(查询)共享同一组 KV Cache,直接减少了需要从 HBM 传输到 SRAM 的数据体积 [05:17]。

2. Sparse Attention(稀疏注意力)

模型不再做全量 token 计算,只挑选最相关的 Top-K 个 token 进行计算。这大幅削减了计算注意力评分所需的算力,进一步限制了从 HBM 流向 SRAM 的数据量 [05:24]。

3. Tile 机制(分块/瓦片机制)与 I/O 优化

这是 M3 最秀的操作 [05:45]:

  • 分块(Tiles): 将 token 以 100 个为一组打包成一条“块(Tile / Block)”。这样模型在 HBM 中读取时,不是零散地到处抓取 token,而是直接读取一整块连续的、易消化的数据(代价是块内可能包含少量无关的噪声 token) [05:45]。
  • 外循环(Outer Loop)I/O 优化: 传统的做法是反复、零散地读取 token。M3 直接把“KV Tile”作为最外层循环,顺序处理。这意味着,每一块 Tile 只需要被连续读取一次,就能顺便把所有需要这块数据的 Query 全部处理完,极大地压榨了 I/O 效率 [06:00]。

视频中展示了研究员 Skyler Meow 释出的一张“草图(手稿)”,正式揭示了这种通过对 Block 进行打分、筛选 Top-K 块,再结合 GQA 进一步压缩 KV Cache 的运作原理 [06:32]。


四、 惊人的性能提升数据

博主指出,虽然目前 M3 的正式技术论文(Technical Paper)尚未发布,具体的架构细节还在猜测阶段 [06:51],但 MiniMax 官方报告公布的数据极其夸张(对比上一代 M2 而言) [07:03]:

  • 计算量暴降:100万(1M)上下文的极端场景下,M3 每 token 的计算开销仅为上一代 M2 的 $\frac{1}{20}$ [07:03]。
  • Pre-filling(首字推理/前缀对齐阶段)速度: 提升了 9.7 倍 [07:10]。
  • Decoding(解码/文本生成阶段)速度: 提升了 15.6 倍 [07:17]。
  • 效果未打折: 在获得如此恐怖的加速下,其多源注意力(MSA)在绝大部分能力上,依然能平替(Match)全量注意力模型 [07:24]。

五、 总结与行业趋势

视频最后总结认为,MiniMax M3 和 DeepSeek 的技术路线完全吻合,揭示了 AI 行业在模型层的未来趋势 [07:32]:

  1. 下层拼效率,上层拼长文本: 应用层对长上下文(Long Context)和 Agent(智能体)的需求在疯狂暴涨,这给极为稀缺的 HBM 显存和基础设施服务带来了巨大压力 [07:46]。
  2. 推理吞吐量(Throughput)是王道: 降低 token 成本、提高推理吞吐效率才是大模型能走向大众化(Mass Population)的唯一解。MiniMax M3 的架构完美迎合了这一点 [05:04, 07:59]。
  3. 国产芯片崛起: 视频结尾顺带提到了当前中国各大 AI 实验室正在经历一个逐渐向国产昇腾(Ascend)芯片生态迁移的整体趋势 [05:04]。

(注:视频最后部分给出了 M3 在各大 Benchmark 基准测试上的成绩截图表,供感兴趣的观众自行查看 [08:06]。)

Top comments (0)