English(EN) Alibaba Qwen Team Introduces Qwen3.5-LiveTranslate-Flash: Real-Time Multimodal Interpretation Across 60 Languages at 2.8-Second Latency

Alibaba Qwen3.5模型提供实时翻译及语音克隆功能

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-20 08:09

Alibaba的Qwen团队发布了Qwen3.5-LiveTranslate-Flash，这是一款实时多模态翻译模型，将延迟显著降低至2.8秒。该新模型将语言支持扩展到60种输入语言和29种输出语言，同时还整合了唇部运动等视觉线索，以提高在嘈杂环境中的准确性。其一项突出功能是能够实时克隆原始说话者的声音进行翻译输出，创造更自然的听觉体验。 AI

影响通过降低延迟和利用多模态输入及语音克隆提高准确性，增强了实时多语言通信能力。

排序理由来自主要AI实验室（Alibaba）的模型发布，具有显著的性能改进和新功能。[lever_c_demoted from frontier_release: ic=2 ai=1.0]

在 MarkTechPost 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

MarkTechPost TIER_1 English(EN) · Asif Razzaq · 2026-05-20 08:09

Alibaba Qwen Team Introduces Qwen3.5-LiveTranslate-Flash: Real-Time Multimodal Interpretation Across 60 Languages at 2.8-Second Latency

<p>Alibaba's Qwen team has released Qwen3.5-LiveTranslate-Flash, a real-time multimodal translation model that processes audio and video simultaneously. The model covers 60 input languages and produces speech output in 29 languages at 2.8 seconds of latency. Key additions over th…
Mastodon — fosstodon.org TIER_1 English(EN) · [email protected] · 2026-05-20 09:51

Alibaba's Qwen team has unveiled Qwen3.5-LiveTranslate-Flash, a real-time multimodal translation model that processes audio and video simultaneously. The model

Alibaba's Qwen team has unveiled Qwen3.5-LiveTranslate-Flash, a real-time multimodal translation model that processes audio and video simultaneously. The model covers 60 input languages and produces speech output in 29 languages at just 2.8 seconds latency. Key features include r…

链接 marktechpost.com/…/alibaba-qwen-team-intr…
Mastodon — mastodon.social TIER_1 English(EN) · [email protected] · 2026-05-20 08:51

Alibaba's Qwen team has unveiled Qwen3.5-LiveTranslate-Flash, a real-time multimodal translation model processing audio and video simultaneously. The model cove

Alibaba's Qwen team has unveiled Qwen3.5-LiveTranslate-Flash, a real-time multimodal translation model processing audio and video simultaneously. The model covers 60 input languages and produces speech output in 29 languages at just 2.8 seconds latency. Key features include real-…

链接 marktechpost.com/…/alibaba-qwen-team-intr…

报道来源 [3]

Alibaba Qwen Team Introduces Qwen3.5-LiveTranslate-Flash: Real-Time Multimodal Interpretation Across 60 Languages at 2.8-Second Latency

Alibaba's Qwen team has unveiled Qwen3.5-LiveTranslate-Flash, a real-time multimodal translation model that processes audio and video simultaneously. The model

Alibaba's Qwen team has unveiled Qwen3.5-LiveTranslate-Flash, a real-time multimodal translation model processing audio and video simultaneously. The model cove

相关实体

相关话题