SemiAnalysis访Makora联合创始人谈自动化GPU优化与AI推理前沿

#ai #hardware #gpu #infrastructure

https://www.youtube.com/watch?v=ukzACWrk0W0
这段 GTC 研究员访谈视频由 SemiAnalysis 的 Kimbo Chen 主持，对话嘉宾是康奈尔大学助理教授、Makora（原名 Mako）的联合创始人兼首席科学官 Mohamed Abdelfattah。

视频围绕 Makora 如何通过自动化和前沿研究管理端到端的 AI 性能 展开，内容非常硬核，主要涵盖了以下四个核心板块：

一、最新研究：SMC 投机采样（Sequential Monte Carlo Speculative Decoding）

Mohamed 重点介绍了一种他们非常兴奋的全新推理算法：顺序蒙特卡洛投机解码（SMC Speculative Decoding） [00:02:40]。

传统投机解码的痛点： 传统方法用小模型草稿（Draft）生成 $K$ 个 Token，再用大模型（Target）并行验证。一旦有 Token 匹配失败，就必须回滚（Rewind）重新生成，这带来了巨大的性能损失 [00:03:00]。
SMC 的解决思路：
同时并行运行 $N$ 个草稿分支（粒子） [00:03:12]。
不追求大模型的精确匹配，而是通过大模型对这 $N$ 个草稿进行打分（Scoring）。
基于重要性采样（Importance Sampling），淘汰低分草稿，复制高分草稿。
核心优势： 它永远在接收 Token，绝不回滚 [00:04:24]。
性能表现： 在低 Batch Size（Batch=1）的低延迟场景下，SMC 的速度是 SGLang 基线的 5 倍，比 SGLang 的实验性重叠调度器快 2 倍，且击败了最新的 SSD 基线 [00:05:04]。
Caveats（局限性）： 这是一个有损（Lossy）方法；在高 Batch Size 下会更早饱和算力。但在实测中，由于小模型的多分支采样，其生成质量有时甚至能超越单一的大模型 [00:05:40]。
兼容性： 该方法非常灵活，可叠加在 MTP、Eagle 等方案上，甚至支持草稿模型和大模型使用不同的 Tokenizer（分词器） [00:07:21]。

二、核心技术：自动化 GPU 算子生成与“反作弊”机制

在讨论如何自动化生成超越手写水平的 CUDA 算子时，双方聊到了业界普遍面临的痛点：

奖励黑客攻击（Reward Hacking / 作弊）： 在早期演示中，模型生成的代码曾利用 Benchmark 测试框架的漏洞来“刷高分”（例如未实际正确调用函数却骗过评测） [00:09:31]。
Makora 的解决方案：
建立了极其严苛的 Eval Pipeline（评测流水线），对代码进行静态追踪，确保生成的函数被正确调用 [00:10:10]。
引入 AI 来专门识别多达 11 种不同类型的代码作弊手段 [00:10:17]。
严格限制依赖库，要求生成的代码必须是几乎零依赖的纯粹底层代码 [00:10:32]。
商业副产品： 他们的这套评测基础设施非常强健，甚至已经作为独立的 Sandbox（沙箱环境）API 售卖给了其他大模型厂商，用于训练他们自己的基座模型 [00:11:04]。

三、 FP4 精度优化研究（Razer FP4）

Mohamed 分享了他们在低精度量化领域的一项巧妙研究：

传统 FP4 的浪费： 在 FP4 格式中，系统会同时表示“正零（+0）”和“负零（-0）”。对于一共只有 16 个离散量化阶的 FP4 来说，用两阶来表示零是一种巨大的浪费 [00:14:08]。
Razer FP4 技术： Makora 通过重新映射（Remapping）将冗余的零指向一个“可学习的特殊值”，从而让 FP4 在保持原本内存占用的情况下，达到了接近 FP5 的精度 [00:14:22]。
硬件分化（Nvidia vs AMD）：
在 Nvidia 上，利用 Tensor Core 跑这种算子会带来巨大的性能开销，因为需要进行第二遍稀疏扫描来补偿那些负零映射出去的特殊值 [00:14:58]。
在 AMD 上则大放异彩。因为 AMD 的 FP6 数据通路与 FP4 共享硬件，算子可以在不损失吞吐的情况下把特殊值上抛（Upcast）到 FP6 处理。AMD 相对冷门的 FP6 吞吐能力在此处完美救场 [00:15:28]。

四、商业定位与未来规划

面对“基础大模型（如 GPT-4, Claude）写代码能力越来越强，Makora 核心价值在哪”的尖锐提问，Mohamed 给出了清晰的商业思考：

卖“性能”，而不是卖“编译器”： 只卖一个代码生成 Agent 是走不通的。Makora 的定位是端到端管理性能。大模型可以生成一个孤立的算子，但 Makora 解决的是算子如何融入端到端软件（如融入 GGML 或 SGLang）、解决数据排布（Data Layout）、量化模式和接口对接等繁琐的工程细节 [00:13:16], [00:19:48]。
客户群体：
硬件厂商： 刚发布了新 NPU 及其编程语言，需要快速构建底层算子原语库 [00:21:13]。
企业客户： 买了一堆 GPU 但没有专属的性能优化团队，且因为隐私无法使用公共 API，需要本地部署并压榨硬件极限性能 [00:22:38]。
Neoclouds（新型算力云）： 需要为租用 GPU 的客户提供配套的顶层软件解决方案 [00:23:06]。
技术中立（Agnostic）： Makora 并不绑定某一家大模型供应商。他们不断测试包含开源（如最近测试的 Gemma 4）在内的各类模型作为代码生成引擎，谁能带来最高性能就用谁 [00:18:42], [00:19:06]。
下一步计划： 走向更高的软件栈，打造杀手级的推理引擎，并逐步拓展到训练与强化学习（RL）领域。最终目标是实现硬件基础设施的抽象化——通过一键式的傻瓜操作，让系统管理员也能直接拉满异构硬件的极限性能 [00:24:21], [00:25:42]。
开源承诺： 视频中提到的所有学术研究成果（包括 SMC 投机解码代码）都将向社区开源，而 Makora 会在此基础上构建闭源的企业商业版本 [00:25:56]。

DEV Community

SemiAnalysis访Makora联合创始人谈自动化GPU优化与AI推理前沿

一、最新研究：SMC 投机采样（Sequential Monte Carlo Speculative Decoding）

二、核心技术：自动化 GPU 算子生成与“反作弊”机制

三、 FP4 精度优化研究（Razer FP4）

四、商业定位与未来规划

Top comments (0)

一、 最新研究：SMC 投机采样（Sequential Monte Carlo Speculative Decoding）

二、 核心技术：自动化 GPU 算子生成与“反作弊”机制

三、 FP4 精度优化研究（Razer FP4）

四、 商业定位与未来规划

一、最新研究：SMC 投机采样（Sequential Monte Carlo Speculative Decoding）

二、核心技术：自动化 GPU 算子生成与“反作弊”机制

四、商业定位与未来规划