网站首页 / 欧洲杯 / 字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

敏香巧欧洲杯 2025-03-10 1 13

IT之家 3 月 10 日消息，字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。

IT之家注意到，早前豆包团队发布了新一代稀疏架构 UltraMem，将模型推理成本砍掉 83%，此次，又开源了 COMET，向模型训练成本出手。

目前，COMET 核心代码已开源，并计划兼容 Triton 等编译生态。

论文链接：https://arxiv.org/pdf/2502.19811

开源地址：https://github.com/bytedance/flux

本文由 @敏香巧发布在浙江程聪国际货运代理有限公司，如有疑问，请联系我们。
文章链接：http://zjccgjhy.com/post/115948.html

敏香巧管理员

上一篇

光伏产业年度业绩快报陆续披露：结构性分化加速量增价减矛盾突出

下一篇

Downdetector：用户报告社交媒体平台X出现故障

发表评论取消回复

1人参与，13条评论

危安白
2025-03-10 21:55:50回复
训练，累计帮助节省了数百万 GPU 小时训练算力。IT之家注意到，早前豆包团队发布了新一代稀疏架构 UltraMem，将模型推理成本砍掉 83%，此次，又开源了 COMET，向模型训练成本出手。目前，COMET 核心代码已开

俟甲辰
2025-03-11 03:57:11回复
IT之家 3 月 10 日消息，字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算

同乙卯
2025-03-10 22:28:02回复
thub.com/bytedance/flux

揭丁酉
2025-03-11 03:26:01回复
IT之家 3 月 10 日消息，字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术

资甲子
2025-03-10 19:09:32回复
aMem，将模型推理成本砍掉 83%，此次，又开源了 COMET，向模型训练成本出手。目前，COMET 核心代码已开源，并计划兼容 Triton 等编译生态。论文链接

笪庚戌
2025-03-11 05:10:49回复
02.19811开源地址：https://github.com/bytedance/flux

敬甲寅
2025-03-11 02:40:11回复
IT之家 3 月 10 日消息，字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 G

哀映云
2025-03-10 23:52:17回复
IT之家 3 月 10 日消息，字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。IT之家注意到

元癸卯
2025-03-11 06:01:25回复
文链接：https://arxiv.org/pdf/2502.19811开源地址：https://github.com/bytedance/flux

后友槐
2025-03-11 00:33:39回复
意到，早前豆包团队发布了新一代稀疏架构 UltraMem，将模型推理成本砍掉 83%，此次，又开源了 COMET，向模型训练成本出手。目前，COMET 核心代码已开源，并计划兼容 Triton 等编译生态。论文链接：https://arxiv.org/pdf/2502.19811开源

骑凌芹
2025-03-11 01:00:56回复
://github.com/bytedance/flux

登安梦
2025-03-11 01:29:04回复
IT之家 3 月 10 日消息，字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。IT之家注意到，

威甲子
2025-03-11 02:50:23回复
IT之家 3 月 10 日消息，字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于