阿里推出Qwen3.5-Omni,多模态性能领先
新浪科技讯 3月31日上午消息,阿里巴巴发布了新一代全模态大模型Qwen3.5-Omni,在音视频理解、识别和交互等215项任务中表现卓越,超越Gemini-3.1 Pro,成为全球领先的全模态大模型之一。
据了解,该模型具备强大的音视频理解和实时交互功能,能够生成详细且可控的结构化描述,支持多达113种语言和方言,并具备音视频Vibe Coding能力。用户只需对着镜头表达需求,模型就能自动生成App、网页或游戏代码。目前,阿里云百炼已提供Qwen3.5-Omni的Plus、Flash、Light三种API,适用于短视频/直播平台、游戏、自媒体等领域。
Qwen3.5-Omni采用混合注意力MoE架构,基于海量文本、视觉及超过1亿小时的音视频数据进行原生多模态预训练,支持图片、视频、语音、文字等多种内容输入与输出。新模型在音视频理解、跨模态推理和Agent方面实现了显著提升,在215项第三方测试任务中取得最佳成绩。
例如,在DailyOmni、QualcommInteractive、Omni Cloze等视听交互能力测试中,Qwen3.5-Omni得分高于Gemini-3.1 Pro;在WenetSpeech嘈杂环境抗干扰测试中,Qwen3.5-Omni错误率更低,识别更准确;在Multi-Lingual (30lang)多语言语音生成质量测试中,Qwen3.5-Omni也优于Gemini-2.5-Pro-TTS。
此外,千问还支持音视频编程:用户通过摄像头口述需求,即使包含复杂逻辑,模型也能生成产品原型界面,实现“动嘴即可编程”。这一功能是模型在多模态能力扩展过程中自然涌现的结果。
目前,普通用户可免费体验Qwen Chat,开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni,每百万Tokens输入成本不到0.8元,远低于Gemini-3.1 Pro。
责任编辑:屠欣怡
新浪财经声明:此消息转载自合作媒体,登载此文出于传递更多信息之目的,仅供参考,不构成投资建议。
郑重声明:根据《证券法》,禁止编造、传播虚假信息扰乱证券市场;用户发表资料、言论仅代表个人观点,与本网站立场无关,自行承担投资风险。