实体 ElevenLabs v3

ElevenLabs v3

PulseAugur coverage of ElevenLabs v3 — every cluster mentioning ElevenLabs v3 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

research 2
tool 2
commentary 1

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_89003 · Jun 13 · 08:33

Zyphra 发布 ZONOS2，一款 80 亿参数的实时 TTS 模型

Zyphra 发布了 ZONOS2，一个开源的、实时的文本到语音模型，拥有 80 亿总参数和 9 亿激活参数以实现高效推理。这款稀疏专家混合（MoE）模型在高质量、零样本语音克隆方面表现出色，旨在克服语音质量和速度之间的典型权衡。ZONOS2 处理原始 UTF-8 字节而非音素，增强了对多种语言和语码转换的支持，并接受了超过 600 万小时音频数据的训练。
COMMENTARY · CL_43797 · May 22 · 10:10

创作者详述 4 种 AI 配音工作流程，以实现更快、更便宜的播客制作

一位内容创作者详细介绍了使用 ElevenLabs Studio 制作播客单集的四种工作流程模式，旨在缩短制作时间和降低成本。这些模式利用 AI 语音克隆和 SSML 实现多样的叙述风格，包括脚本化的单集播客、带有代码穿插的教程旁白、多角色辩论以及短片 B-roll 旁白。与传统录音方法相比，创作者强调了显著的时间节省和成本降低，每集成本在 0.18 欧元至 0.71 欧元之间。
RESEARCH · CL_44795 · May 19 · 22:29

语音克隆模型应用风格迁移，而非真实复制

一项新的研究论文揭示，广泛使用的语音克隆技术并不能忠实地复制个人的声音。相反，这些模型应用风格迁移，使克隆的声音听起来比原始声音更具权威性、温暖感和人性化。这个过程可能导致语音特征的同质化，并可能影响人类行为，例如增加信任度和分享个人信息的意愿。
TOOL · CL_26009 · May 11 · 05:05

StepAudio 2.5 TTS 模型排名超越 ElevenLabs v3

来自中国人工智能实验室的文本转语音模型 StepAudio 2.5 据报道在性能上超越了 ElevenLabs 的 v3，在全球排名中位列前三。文章称，这家成立 24 个月的新兴公司凭借在某项未指明的基准测试中优于 ElevenLabs 取得了这一成就。
RESEARCH · CL_08270 · Apr 28 · 10:28

新基准评估六维度的印度语言TTS口音保真度

研究人员推出PSP，一个旨在评估印度语言文本到语音（TTS）系统口音准确性的新基准。与关注清晰度和自然度的现有指标不同，PSP通过将其分解为六个不同的维度来专门衡量口音，包括卷舌音合并和韵律特征发散。对ElevenLabs v3和Sarvam Bulbul等系统的初步测试显示，在词错误率方面表现最佳的系统不一定在口音保真度方面表现出色，这凸显了对更细致评估方法的需求。