Featured image of post 阿里发布 Qwen3.5 Omni:支持百种语言的终极多模态巨兽?

阿里发布 Qwen3.5 Omni:支持百种语言的终极多模态巨兽?

阿里巴巴正式推出 Qwen3.5 Omni 模型,实现了文本、图像、音频与视频的全面原生多模态融合,但其闭源决定引发了社区热议。

摘要

2026年6月,阿里巴巴旗下 AI 团队发布了备受瞩目的全能型多模态大模型——Qwen3.5 Omni。该模型实现了在单一网络架构下对文本、图像、音频和视频的原生理解与生成,且支持超过100种语言。然而,与其前代产品的彻底开源策略不同,阿里此次对 Qwen3.5 Omni 采取了闭源策略,这在开发者社区中引发了不小的震动与讨论。

事件背景

过去两年里,阿里的 Qwen(通义千问)系列凭借其极其良心的开源协议和出色的性能,在全球开源社区积累了极高的人气。随着多模态技术(如 OpenAI 的 GPT-4o)成为行业新标配,市场一直在期待阿里能给出一份惊艳的答卷。Qwen3.5 Omni 的发布不仅回应了这一期待,更在语言支持广度和语音合成自然度上做出了重大突破。

核心技术解析

技术架构

Qwen3.5 Omni 摒弃了传统的“多模型拼接”路线(即先将语音转文本,处理后再转语音),采用了真正的原生端到端(End-to-End)多模态架构。模型在底层建立了一个统一的表征空间,将视觉、听觉和文本信号映射到同一个维度进行计算。

关键创新点

  • 百语言无缝切换:得益于极其庞大的多语种语料库,该模型不仅能理解 100 多种语言,还能在视频配音和实时同传时,保持不同语言间的语调与情感一致性。
  • 全新语音合成架构:引入了下一代神经声学合成器,大幅消除了 AI 生成语音的“机械感”,能够敏锐捕捉并复刻说话者的呼吸声、犹豫感等微表情音。
  • 视频与时序理解:能够长时段追踪视频中的物体变化与逻辑关联,而不再局限于单帧图像的简单识别。

Qwen多模态数据处理示意图

性能评测

  • 在主流的多模态基准测试(如 MMLU-Multimodal)中,Qwen3.5 Omni 的得分不仅超越了众多开源模型,也逼近了最顶级的闭源商业模型。
  • 在跨语言实时翻译的延迟测试中,平均响应时间压缩到了惊人的 250 毫秒以内。

行业影响

对市场的影响

这款模型巩固了阿里巴巴在亚洲乃至全球 AI 市场的领先地位。其超强的多语言能力,特别是在东南亚、中东等“小语种”市场的优异表现,将极大地助力中国企业出海的本土化运营。

对开发者的意义

尽管模型的强大令人振奋,但其放弃开源的决定却让许多依赖 Qwen 生态的开发者措手不及。这标志着大厂在最前沿模型上逐渐收紧核心技术,开发者可能需要重新评估其技术栈的依赖风险。

  graph TD
    A[用户输入: 语音/图像/视频] --> B{统一多模态编码器}
    B --> C[Qwen3.5 Omni 核心大模型]
    C --> D{多模态解码器}
    D -->|生成文本| E[文字回复]
    D -->|生成音频| F[拟真语音]
    D -->|生成图像| G[视觉输出]

商业化前景

凭借原生多模态能力,Qwen3.5 Omni 在智能座舱、跨国视频会议同传、虚拟数字人等高净值商业场景中拥有不可估量的潜力。

实际体验

使用场景演示

在发布会演示中,工程师向模型展示了一段无声的厨房做菜视频,并用印尼语提问“接下来该放什么调料?”。模型不仅用流利的印尼语回答了问题,还自动生成了一段带有恰当环境音效的语音解说,整个过程行云流水。

优势与不足

优势:

  • 原生多模态带来了极低的交互延迟和极高的信息保真度。
  • 百种语言支持让全球化沟通再无障碍。
  • 语音合成效果达到了当前行业的顶级水准。

不足:

  • 闭源策略切断了社区对其进行微调优化的可能性。
  • 对于极端复杂的长视频逻辑推理,偶尔还会出现幻觉现象。

总结与展望

Qwen3.5 Omni 的问世,无疑是多模态 AI 发展史上的一个重要里程碑。它向我们展示了当所有感官数据被融汇一炉时,AI 能爆发出怎样的智能火花。虽然闭源的决定令人惋惜,但也反映出当前顶级大模型研发的成本之高与竞争之烈。未来,它将如何在商业落地上大放异彩,我们拭目以待。


参考来源: