介绍计算与通信重叠的基本原理及其在分布式训练中的代码实现方法
参考资料
FLUX: FAST SOFTWARE-BASED COMMUNICATION OVERLAP ON GPUS THROUGH KERNEL FUSION
https://zhuanlan.zhihu.com/p/1908569110075409060
https://github.com/bytedance/flux
万字综述 LLM 训练中的 Overlap 优化:字节 Flux 等 7 种方案:https://blog.csdn.net/xxue345678/article/details/144502704
对DualPipe的一些想法:https://zhuanlan.zhihu.com/p/21525151726
Last updated 46 minutes ago
Was this helpful?