ElevenLabs 推出了其 AI 驱动的 Dubbing v2 模型的测试版,该模型旨在跨越 90 多种语言保留翻译语音的原始情感和表演。新模型使用直接语音适配而非文本,并结合了同步感知翻译以实现更好的对齐,目前可通过 ElevenCreative 和 ElevenProductions 使用。Google 还发布了 Gemma 4 12B,这是一个开源 AI 模型,能够使用 16GB RAM 的标准笔记本电脑在本地运行文本、图像和音频处理等多模态任务。该模型在性能上与其较大的 26B 版本相当,但体积减半,并且是首个支持原生音频处理的中等规模模型,可在 Apache 2.0 许可下商用。 AI
影响 新的多模态和翻译模型提供了增强的本地处理和跨语言能力,可能降低内容创作和 AI 应用开发的门槛。
排序理由 该集群包含两大 AI 公司发布的两个不同产品,包括一个开源模型发布。
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →