内容持续更新中
近日,蚂蚁集团的Ling团队在预印版Arxiv平台上发布了一篇题为《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》的技术论文。该论文介绍了两款新型大语言模型:百…
字节跳动旗下豆包大模型团队近日宣布,成功攻克混合专家模型(MoE)架构的关键瓶颈,并开源一项名为COMET的重大优化技术。该技术显著提升了大模型的训练效率,实现了高达1.7倍的效率提升,并有效降低了4…