导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

Nvidia 的新 MoE 内核承诺 AI 训练速度提升 93%

Nvidia 推出先进的 MoE 训练内核,将 GPT 预训练中的 AI 模型吞吐量提升高达 93%,重新定义大规模效率。

Nvidia's New MoE Kernels Promise 93% Speedup for AI Training

Nvidia 推出了用于专家混合 (MoE) 模型的尖端融合内核,显着提高了训练吞吐量。新内核可通过 cuDNN 前端、Transformer Engine 和 Megatron Core 获得,承诺在内核级别实现 1.3 倍至 2.1 倍的加速。更令人印象深刻的是,根据 2026 年 6 月 15 日报道的 Nvidia 内部测试,它们将基于 GPT 的模型的整体训练速度提高了 93%。

MoE 架构对于扩展 AI 模型至关重要,可实现大量参数计数,同时保持计算成本可控。 Nvidia 的新内核旨在解决 MoE 训练中的关键瓶颈,包括内存开销、CPU-GPU 同步延迟以及激活和量化例程效率低下。通过利用 CuTe DSL(专家级 CUDA 模板),Nvidia 重新设计了其软件堆栈,以在整个训练过程中充分利用 Tensor Core。

打破瓶颈

历史上阻碍教育部培训效率的三大挑战:

  • 激活瓶颈:由于内存操作过多,标准激活函数通常无法充分利用 Tensor Core。
  • CPU 开销:跨专家的动态令牌路由会带来严重的 CPU-GPU 同步延迟。
  • 量化效率低下:将张量转换为较低精度会增加不必要的内存限制操作。

为了解决这些问题,Nvidia 开发了自定义融合内核,将分组 GEMM、激活函数(SwiGLU、GeGLU、sReLU)和量化等操作集成到单个 CUDA 内核中。这消除了中间张量读/写并减少了内存开销,特别是对于 MXFP8 和 NVFP4 等低精度格式。

现实世界的影响:GPT 和 DeepSeek 加速

这些创新的影响是惊人的。 Nvidia 报告称,其 DeepSeek-V3 预训练设置的端到端速度提升了 8%,GPT-OSS 预训练的端到端速度提升了 93%。随着人工智能军备竞赛的加剧,组织越来越依赖教育部有效扩展模型的能力,这些成果至关重要。正如 2026 年 6 月 2 日的行政命令所述,Nvidia 的进步正值美国政府正在审查顶级人工智能模型的国家安全风险。

这些性能提升对于 Nvidia 的合作伙伴关系也具有战略意义。例如,五角大楼最近与 Nvidia、微软和 AWS 签署了在机密网络上部署人工智能的协议。更快的训练周期可以加快模型为此类高风险应用做好准备的速度。

如何获取技术

Nvidia 的融合 MoE 内核已经集成到其软件生态系统中。开发者可以通过以下方式访问它们:

  • cuDNN 前端:此库在 1.23.0+ 版本中提供,允许直接调用或通过包装器 API 使用以进行缓存、可重用编译。
  • Transformer Engine:2.15+ 版本支持这些内核,可与 PyTorch 工作流程无缝集成。
  • Megatron Core:从版本 26.04-alpha.rc2 开始,用户可以通过调整运行时配置来激活内核。

对于那些有兴趣尝试该技术的人,可以在 Nvidia 的 GitHub 存储库 上找到详细的基准测试和说明。

为什么重要

Nvidia 的进步突显了大规模优化人工智能的持续努力。自 2023 年以来,MoE 模型在前沿研究中占据主导地位,有效训练这些架构的能力已成为商业实体和政府的首要任务。 Nvidia 专注于硬件感知软件设计,确保其 GPU 仍然是这场人工智能革命的支柱。

随着教育部在语言、视觉和多模式人工智能系统等领域的采用不断增长,更快的培训不仅仅是一个技术里程碑,更是一种战略优势。 Nvidia 的创新可以重新定义组织训练和部署大规模 AI 模型的方式,使其成为争夺 AI 主导地位的重要工具。

书签