通义千问发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放,你可以通过我们的Demo体验互动功能,或是通过Qwen Chat 直接发起语音或视频聊天,沉浸式体验全新的 Qwen2.5-Omni 模型强大性能。
上一篇
发表评论
2025-03-27 18:56:50回复
2025-03-27 10:39:42回复
2025-03-27 15:32:16回复
2025-03-27 09:17:17回复
2025-03-27 16:32:20回复
2025-03-27 16:48:11回复