MoE相关资讯及MoE相关产品

DeepSeek开源周第3天：发布DeepGEMM，FP8 GEMM库助力AI训练与推理

中国人工智能公司DeepSeek在其“开源周”第3天宣布推出DeepGEMM——一款支持FP8通用矩阵乘法（GEMM）的开源库。这一工具专为密集型和混合专家(MoE)矩阵运算设计，为DeepSeek …

字节跳动豆包UltraMem架构将大模型推理成本降低83%

字节跳动豆包大模型团队今日宣布，成功研发出全新稀疏模型架构UltraMem，该架构有效解决了MoE（混合专家）模型推理时的高额访存问题，推理速度较MoE提升2-6倍，推理成本最高可降低83%。这一突破…

幻方量化重磅发布DeepSeek-V3：性能媲美GPT-4，训练成本创新低

幻方量化于12月26日晚发布全新一代大模型DeepSeek-V3，展现出惊人的技术突破。这款采用MoE（混合专家）架构的模型不仅在性能上媲美顶级闭源模型，其低成本高效率的特点更是引发业界关注。从核心…

元象发布MoE开源大模型XVERSE-MoE-A36B 激活参数达36B

深圳元象信息科技有限公司近日宣布，公司已成功发布中国最大的Mixture of Experts（MoE）开源大模型——XVERSE-MoE-A36B。这款模型的发布标志着中国在AI领域的一大进步，将国…

腾讯发布“混元Turbo”模型：推理成本降低50% 效率提升100%

在2024年腾讯全球数字生态大会上，腾讯公司副总裁兼云业务总裁邱跃鹏对外宣布——腾讯混元Turbo大模型的正式亮相。这款新一代的大模型基于MoE（Mixture of Experts）架构设计，相较…

阅读量飙升 MiniMax 发布国内首个 MoE 大语言模型 abab6

MiniMax 于 2024 年 1 月 16 日发布了国内首个 MoE 大语言模型 abab6，该模型采用 MoE 架构，具备处理复杂任务的能力，并且在单位时间内能够训练更多的数据。评测结果显示，a…

新鲜出炉，等待你的评论

暂无评论，快留下你的脚印吧！还可以领现金哦~