站点图标 高效码农

DeepSeek开源周第二日-DeepEP

DeepEP 是一个专为 混合专家模型(MoE)专家并行(EP) 设计的通信库,旨在提供高效的 GPU 通信能力,支持高吞吐、低延迟的分布式计算,适用于训练和推理场景。


核心功能

  1. 高性能通信内核

    • 正常内核:支持 NVLink(GPU 间高速互联)和 RDMA(远程直接内存访问)混合转发,适用于训练和推理预填充阶段。
    • 低延迟内核:纯 RDMA 设计,专为推理解码阶段优化,减少通信延迟。
    • 低精度支持:包括 FP8 等低精度操作,节省显存并提升效率。
  2. 性能表现

    • 正常内核:在 H800 GPU 测试中,单节点内(Intranode)通信带宽可达 ~150 GB/s,跨节点(Internode)带宽约 ~45 GB/s
    • 低延迟内核:单次通信延迟最低 163 微秒,带宽稳定在 ~40 GB/s 以上,支持大规模并行(如 256 EP)。

快速上手


网络配置建议


使用示例


注意事项


引用

若使用 DeepEP,可参考以下引用格式:

@misc{deepep2025,
  title={DeepEP: 高效的专家并行通信库},
  author={DeepSeek 团队},
  year={2025},
  howpublished={\url{https://github.com/deepseek-ai/DeepEP}}
}

总结:DeepEP 专注于优化 MoE 模型的分布式通信,通过灵活的配置和高效内核,显著提升训练和推理效率,适合大规模 AI 模型部署。

退出移动版