一款名为 Audio Interaction 的新开源语音模型已发布,它能够实时处理音频,无需等待输入结束。该模型可以持续进行翻译、转录和对话,甚至能识别咳嗽等环境声音。其代码和权重已在 GitHub 上以开源许可证形式提供,训练数据稍后发布。 AI
影响 在开源应用中实现连续、实时的语音交互和环境声音识别。
排序理由 发布一款具有新颖实时处理能力的开源模型。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →