智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统

　　新浪科技10月23日下午消息，智源研究院近日宣布原生多模态世界模型Emu3发布。该模型实现了视频、图像、文本三种模态的统一理解与生成。据悉，Emu3只基于下一个token预测，无需扩散模型或组合式方法，便能把图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer，展现了其在大规模训练和推理上的潜力。

智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统第1张

　　在图像生成、视觉语言理解、视频生成任务中，Emu3的表现超过了 SDXL 、LLaVA-1.6、OpenSora等知名开源模型。在图像生成任务中，人类评估得分Emu3高于SD-1.5与SDXL；在视觉语言理解任务中，12 项基准测试的平均得分，Emu3领先于LlaVA-1.6与LlaVA-1.5；在视频生成任务中，VBench基准测试得分，Emu3优于OpenSora 1.2。

　　下一token预测被认为是通往AGI的可能路径，但这种范式在语言以外的多模态任务中没有被证明。此前，多模态生成任务仍然由扩散模型（例如 Stable Diffusion）所主导，而多模态理解任务则由组合式的方法（例如 CLIP视觉编码器与LLM结合）所主导。智源研究院院长王仲远表示：“Emu3证明了下一个token预测能在多模态任务中有高性能的表现，这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上，为大规模的多模态训练和推理提供基础，这一简单的架构设计将利于产业化。未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”

　　目前，智源研究院已将Emu3的关键技术和模型开源至国际技术社区。相关技术从业者表示：“对于研究人员来说，Emu3意味着出现了一个新的机会，可以通过统一的架构探索多模态，无需将复杂的扩散模型与大语言模型相结合。这种方法类似于transformer在视觉相关任务中的变革性影响。”（文猛）

发表评论取消回复

27人参与，17条评论

楼摄提格
2024-10-28 17:16:39回复
。”　　目前，智源研究院已将Emu3的关键技术和模型开源至国际技术社区。相关技术从业者表示：“对于研究人员来说，Emu3意味着出现了一个新的机会，可以通过统一的架构探索多模态，无需将复杂的扩散模型与大语言模型相结合。这种

祢冬晴
2024-10-28 18:50:28回复
练一个Transformer，展现了其在大规模训练和推理上的潜力。　　在图像生成、视觉语言理解、视频生成任务中，Emu3的表现超过了 SDXL 、LLaVA-1.6、OpenSora等知名开源模型。在图像生成任务中，人类评估得分Emu3高于SD-1.5与SDXL；在视觉语言理解任

刘丁卯
2024-10-28 16:32:14回复
模的多模态训练和推理提供基础，这一简单的架构设计将利于产业化。未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”　　目前，智源研究院已将Emu3的关键技术和模型开源至国际技术社区。相关技术从业者表示：“对于研究人员来说，Emu3意味着出现了一个新的机会，可以通过统一的

郑山天
2024-10-28 10:00:11回复
码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer，展现了其在大规模训练和推理上的潜力。　　在图像生成、视觉语言理解、视频生成任务中，Emu3的表现超过了 SDXL 、LLaVA-1.6、OpenSor

卿作噩
2024-10-28 11:37:33回复
未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”　　目前，智源研究院已将Emu3的关键技术和模型开源至国际技术社区。相关技术从业者表示：“对于研究人

汉灵松
2024-10-28 17:40:05回复
已将Emu3的关键技术和模型开源至国际技术社区。相关技术从业者表示：“对于研究人员来说，Emu3意味着出现了一个新的机会，可以通过统一的架构探索多模态，无需将复杂的扩散

颜迎旋
2024-10-28 16:52:15回复
token预测能在多模态任务中有高性能的表现，这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上，为大规模的多模态训练和推理提供基础，这一简单的架构设计将利于产业化。未

智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统

苗谷槐管理员

习近平出席金砖国家领导人大范围会议

同程旅行柴莹辉：乡村振兴要扣准时代脉搏，把项目和当下旅行行业发展阶段相结合

发表评论取消回复

智源研究院：原生多模态世界模型Emu3发布， 实现视频、图像、文本大一统

苗谷槐管理员

习近平出席金砖国家领导人大范围会议

同程旅行柴莹辉：乡村振兴要扣准时代脉搏，把项目和当下旅行行业发展阶段相结合

相关文章

发表评论取消回复

智源研究院：原生多模态世界模型Emu3发布，实现视频、图像、文本大一统