3月30日,阿里巴巴正式发布最新一代全模态大模型Qwen3.5-Omni。该模型在215项第三方性能测试中取得SOTA(当前最优效果),在音视频理解与实时交互等多项核心指标上超越谷歌Gemini-3.1 Pro。
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
3月30日,阿里巴巴正式发布最新一代全模态大模型Qwen3.5-Omni。该模型在215项第三方性能测试中取得SOTA(当前最优效果),在音视频理解与实时交互等多项核心指标上超越谷歌Gemini-3.1 Pro。
技术层面,Qwen3.5-Omni采用混合注意力MoE架构,在海量文本、视觉及超1亿小时音频数据上完成原生多模态预训练,具备256K上下文窗口,最高支持超10小时音频及超400秒720P视频输入。值得注意的是,该模型涌现出音视频“Vibe Coding”能力,突破了纯文本或图片驱动的限制,可直接通过分析画面(如草图)并结合用户语音指令,生成带有复杂UI的产品原型及代码。此外,模型支持113种语言及方言的语音识别与实时交互。
目前,Qwen3.5-Omni的Plus、Flash、Light三种API已在阿里云百炼平台上线。其API调用定价为每百万Tokens输入不足0.8元人民币,不到Gemini-3.1 Pro价格的十分之一。据阿里披露,千问目前服务涵盖互联网、金融、消费电子及汽车等行业超100万家客户,稳居国内企业级大模型调用量首位。(硬AI)