English(EN) Improved Gemini audio models for powerful voice experiences

Google DeepMind 增强 Gemini 音频模型，实现自然语音交互和翻译

作者 PulseAugur 编辑部 · [2 个来源] · 2025-06-03 17:15

Google DeepMind 发布了升级版的 Gemini 2.5 音频模型，增强了实时语音代理和文本到语音生成的能力。Gemini 2.5 Flash Native Audio 模型现在提供了改进的功能调用、指令遵循和对话上下文感知能力，在 ComplexFuncBench Audio 基准测试中取得了 71.5% 的分数。此外，Google Translate 应用正在推出新的实时语音翻译功能，支持实时语音到语音翻译，并能保留说话者的语调和音高。 AI

排序理由前沿实验室模型发布，附带系统卡。

在 Google DeepMind 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

Google DeepMind 增强 Gemini 音频模型，实现自然语音交互和翻译

报道来源 [2]

Google DeepMind TIER_1 English(EN) · 2025-12-12 17:50

改进的 Gemini 音频模型，带来强大的语音体验
Google DeepMind TIER_1 English(EN) · 2025-06-03 17:15

Gemini 2.5 的高级音频对话与生成

Gemini 2.5 has new capabilities in AI-powered audio dialog and generation.

报道来源 [2]

改进的 Gemini 音频模型，带来强大的语音体验

Gemini 2.5 的高级音频对话与生成

相关实体

相关话题