Meta 训练 Llama 3 遭遇频繁故障

2024 年 7 月 28 日

Meta 公司的一份研究报告指出，在其训练大型 AI 模型 Llama 3 的过程中，使用了 16384 个英伟达 H100 显卡的集群在 54 天内遭遇了 419 次意外故障，平均每三小时一次。故障主要由显卡或其 HBM3 内存引起，单个显卡故障可能导致整个训练任务中断。尽管如此，Meta 团队仍保持了 90% 以上的有效训练时间。研究中，466 次工作中断中有 47 次是计划性的，419 次是意外的，意外中断主要由硬件问题造成，其中 GPU 问题占 58.7%。团队开发了一系列工具和优化策略来提高效率并减轻环境因素的影响。随着 AI 模型参数量的增加，对计算资源的需求也在扩大，未来的 AI 训练将面临更大的挑战。