Nvidia 的新 MoE 内核承诺 AI 训练速度提升 93%

Nvidia 推出先进的 MoE 训练内核，将 GPT 预训练中的 AI 模型吞吐量提升高达 93%，重新定义大规模效率。

Nvidia's New MoE Kernels Promise 93% Speedup for AI Training

Nvidia 推出了用于专家混合 (MoE) 模型的尖端融合内核，显着提高了训练吞吐量。新内核可通过 cuDNN 前端、Transformer Engine 和 Megatron Core 获得，承诺在内核级别实现 1.3 倍至 2.1 倍的加速。更令人印象深刻的是，根据 2026 年 6 月 15 日报道的 Nvidia 内部测试，它们将基于 GPT 的模型的整体训练速度提高了 93%。

MoE 架构对于扩展 AI 模型至关重要，可实现大量参数计数，同时保持计算成本可控。 Nvidia 的新内核旨在解决 MoE 训练中的关键瓶颈，包括内存开销、CPU-GPU 同步延迟以及激活和量化例程效率低下。通过利用 CuTe DSL（专家级 CUDA 模板），Nvidia 重新设计了其软件堆栈，以在整个训练过程中充分利用 Tensor Core。

打破瓶颈

历史上阻碍教育部培训效率的三大挑战：

激活瓶颈：由于内存操作过多，标准激活函数通常无法充分利用 Tensor Core。
CPU 开销：跨专家的动态令牌路由会带来严重的 CPU-GPU 同步延迟。
量化效率低下：将张量转换为较低精度会增加不必要的内存限制操作。

为了解决这些问题，Nvidia 开发了自定义融合内核，将分组 GEMM、激活函数（SwiGLU、GeGLU、sReLU）和量化等操作集成到单个 CUDA 内核中。这消除了中间张量读/写并减少了内存开销，特别是对于 MXFP8 和 NVFP4 等低精度格式。

现实世界的影响：GPT 和 DeepSeek 加速

这些创新的影响是惊人的。 Nvidia 报告称，其 DeepSeek-V3 预训练设置的端到端速度提升了 8%，GPT-OSS 预训练的端到端速度提升了 93%。随着人工智能军备竞赛的加剧，组织越来越依赖教育部有效扩展模型的能力，这些成果至关重要。正如 2026 年 6 月 2 日的行政命令所述，Nvidia 的进步正值美国政府正在审查顶级人工智能模型的国家安全风险。

这些性能提升对于 Nvidia 的合作伙伴关系也具有战略意义。例如，五角大楼最近与 Nvidia、微软和 AWS 签署了在机密网络上部署人工智能的协议。更快的训练周期可以加快模型为此类高风险应用做好准备的速度。

如何获取技术

Nvidia 的融合 MoE 内核已经集成到其软件生态系统中。开发者可以通过以下方式访问它们：

cuDNN 前端：此库在 1.23.0+ 版本中提供，允许直接调用或通过包装器 API 使用以进行缓存、可重用编译。
Transformer Engine：2.15+ 版本支持这些内核，可与 PyTorch 工作流程无缝集成。
Megatron Core：从版本 26.04-alpha.rc2 开始，用户可以通过调整运行时配置来激活内核。

对于那些有兴趣尝试该技术的人，可以在 Nvidia 的 GitHub 存储库上找到详细的基准测试和说明。

为什么重要

Nvidia 的进步突显了大规模优化人工智能的持续努力。自 2023 年以来，MoE 模型在前沿研究中占据主导地位，有效训练这些架构的能力已成为商业实体和政府的首要任务。 Nvidia 专注于硬件感知软件设计，确保其 GPU 仍然是这场人工智能革命的支柱。

随着教育部在语言、视觉和多模式人工智能系统等领域的采用不断增长，更快的培训不仅仅是一个技术里程碑，更是一种战略优势。 Nvidia 的创新可以重新定义组织训练和部署大规模 AI 模型的方式，使其成为争夺 AI 主导地位的重要工具。

书签