阿里发布全模态大模型Qwen3.5-Omni，多项指标超越Gemini-3.1 Pro

3月30日，阿里巴巴正式发布最新一代全模态大模型Qwen3.5-Omni。该模型在215项第三方性能测试中取得SOTA（当前最优效果），在音视频理解与实时交互等多项核心指标上超越谷歌Gemini-3.1 Pro。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

技术层面，Qwen3.5-Omni采用混合注意力MoE架构，在海量文本、视觉及超1亿小时音频数据上完成原生多模态预训练，具备256K上下文窗口，最高支持超10小时音频及超400秒720P视频输入。值得注意的是，该模型涌现出音视频“Vibe Coding”能力，突破了纯文本或图片驱动的限制，可直接通过分析画面（如草图）并结合用户语音指令，生成带有复杂UI的产品原型及代码。此外，模型支持113种语言及方言的语音识别与实时交互。

目前，Qwen3.5-Omni的Plus、Flash、Light三种API已在阿里云百炼平台上线。其API调用定价为每百万Tokens输入不足0.8元人民币，不到Gemini-3.1 Pro价格的十分之一。据阿里披露，千问目前服务涵盖互联网、金融、消费电子及汽车等行业超100万家客户，稳居国内企业级大模型调用量首位。（硬AI）

风险提示及免责条款