阿里推出Qwen3.5-Omni，多模态性能领先

发布时间：2026-03-31 08:54阅读：20

新浪科技讯 3月31日上午消息，阿里巴巴发布了新一代全模态大模型Qwen3.5-Omni，在音视频理解、识别和交互等215项任务中表现卓越，超越Gemini-3.1 Pro，成为全球领先的全模态大模型之一。

据了解，该模型具备强大的音视频理解和实时交互功能，能够生成详细且可控的结构化描述，支持多达113种语言和方言，并具备音视频Vibe Coding能力。用户只需对着镜头表达需求，模型就能自动生成App、网页或游戏代码。目前，阿里云百炼已提供Qwen3.5-Omni的Plus、Flash、Light三种API，适用于短视频/直播平台、游戏、自媒体等领域。

Qwen3.5-Omni采用混合注意力MoE架构，基于海量文本、视觉及超过1亿小时的音视频数据进行原生多模态预训练，支持图片、视频、语音、文字等多种内容输入与输出。新模型在音视频理解、跨模态推理和Agent方面实现了显著提升，在215项第三方测试任务中取得最佳成绩。

例如，在DailyOmni、QualcommInteractive、Omni Cloze等视听交互能力测试中，Qwen3.5-Omni得分高于Gemini-3.1 Pro；在WenetSpeech嘈杂环境抗干扰测试中，Qwen3.5-Omni错误率更低，识别更准确；在Multi-Lingual （30lang）多语言语音生成质量测试中，Qwen3.5-Omni也优于Gemini-2.5-Pro-TTS。

此外，千问还支持音视频编程：用户通过摄像头口述需求，即使包含复杂逻辑，模型也能生成产品原型界面，实现“动嘴即可编程”。这一功能是模型在多模态能力扩展过程中自然涌现的结果。

目前，普通用户可免费体验Qwen Chat，开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni，每百万Tokens输入成本不到0.8元，远低于Gemini-3.1 Pro。

责任编辑：屠欣怡

新浪财经声明：此消息转载自合作媒体，登载此文出于传递更多信息之目的，仅供参考，不构成投资建议。

郑重声明：根据《证券法》，禁止编造、传播虚假信息扰乱证券市场；用户发表资料、言论仅代表个人观点，与本网站立场无关，自行承担投资风险。

← 上一篇：教育创新：人工智能助力课题申报指南下一篇：技术驱动至信用建立：AI时代个人企业的成长路径与启示 →