内容持续更新中
字节跳动联合北京大学的研究团队在arXiv发表论文,介绍了他们用于训练大语言模型的生产系统MegaScale。MegaScale搭建了超过10000块GPU的单一集群,实现了55.2%的模型FLOP利…