字节跳动打造 MegaScale：用于训练 LLM 的单一“万卡集群”-岩猫星空网

字节跳动联合北京大学的研究团队在 arXiv 上发表论文，介绍他们用于训练大语言模型的生产系统 MegaScale。该团队为 MegaScale 搭建了超过 10000 块 GPU（12,288）的单一集群，算力利用率超过 55%。

https://arxiv.org/pdf/2402.15627.pdf

整个系统涵盖了从模型块和优化器设计到计算与通信的重叠、运算符优化、数据管道以及网络性能调整的算法和系统组件。

据介绍，MegaScale 将大语言模型训练扩展到超过 10000 个 GPU，在 12288 个 GPU 上训练 175B LLM 模型时，MegaScale 实现了 55.2% 的模型 FLOP 利用率（MFU），与层内模型并行技术 Megatron-LM 相比，MFU 提高了 1.34 倍。

MegaScale 还包含一套诊断工具，用于监控堆栈深处的系统组件和事件，找出根本原因，并通过有效的技术来实现容错 (fault tolerance) 和缓解滞后问题。

字节跳动打造 MegaScale：用于训练 LLM 的单一“万卡集群”