T Tauri-type star
PulseAugur coverage of T Tauri-type star — every cluster mentioning T Tauri-type star across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
OCaml 5.5.0 发布,支持模块相关函数和可重定位编译器
OCaml 发布了 5.5.0 版本,恰逢 Blaise Pascal 的生日。此次更新引入了几个关键功能,包括允许将模块用作函数参数的模块相关函数,从而增强了类型安全性和灵活性。该版本还带来了可重定位编译器,通过允许移动安装而不破坏功能,简化了本地开发环境的创建。此外,OCaml 5.5.0 通过新的子字符串搜索和替换函数增强了字符串操作,并改进了局部项和外部类型的定义,以实现更好的互操作性。
-
AMD EPYC CPU 在 LLM 和 TTS 推理工作负载上表现出竞争力
Leaseweb 近期的一项分析对 AMD EPYC 9334 CPU 在大型语言模型 (LLM) 和文本转语音 (TTS) 推理工作负载上的性能进行了基准测试。研究表明,虽然 GPU 提供更高的吞吐量,但 CPU 可以是推理的经济高效且可预测的选择,尤其是在考虑延迟和每查询成本等因素时。基准测试突显了量化的影响,Q4 模型在 CPU 上的吞吐量明显优于 FP16,并且还与参考 Nvidia L4 GPU 比较了首次令牌时间 (TTF…
-
Sakana AI 的 KAME 架构在不引入延迟的情况下将 LLM 知识注入语音 AI
Sakana AI 开发了 KAME,一种新颖的语音到语音 AI 串联架构,旨在结合直接系统的速度和基于 LLM 方法的知识深度。KAME 由两个异步组件运行:前端生成即时响应,后端 LLM 实时注入更丰富的知识。这使得系统能够在句子中间更新其响应,模仿人类对话调整而不会引入明显延迟。
-
塔马西特语单语种语音数据集在 Hugging Face 上发布
一个针对塔马西特语的新单语种语音数据集已在 Hugging Face 和 Mozilla Data Collective 上发布。该数据集旨在用于人工智能应用,例如自动语音识别 (ASR) 和文本转语音 (TTS) 系统。此次发布旨在支持代表性不足的语言的人工智能工具的开发。
-
研究人员通过LLM释义和语音合成增强老年人ASR
研究人员开发了一种新颖的数据增强技术,以改进老年人的自动语音识别(ASR)。该方法利用大型语言模型释义现有文本,生成老年人上下文的变体。然后,使用具有老年参考说话人的文本到语音合成将这些释义文本转换为合成语音。实验表明,与基线模型相比,词错误率显著降低,最高可提高58.2%。
-
新基准评估六维度的印度语言TTS口音保真度
研究人员推出PSP,一个旨在评估印度语言文本到语音(TTS)系统口音准确性的新基准。与关注清晰度和自然度的现有指标不同,PSP通过将其分解为六个不同的维度来专门衡量口音,包括卷舌音合并和韵律特征发散。对ElevenLabs v3和Sarvam Bulbul等系统的初步测试显示,在词错误率方面表现最佳的系统不一定在口音保真度方面表现出色,这凸显了对更细致评估方法的需求。
-
新研究评估了 7 个针对 10 种印度语言的 TTS 系统
研究人员开发了一个新的框架来评估印度语言的文本转语音(TTS)系统,解决了众包评估中通常出现的高方差问题。该框架使用跨越 10 种印度语言的受控、多维度成对比较,收集了来自 1900 多名母语人士的 120,000 多条判断。该研究评估了七个最先进的 TTS 系统,分析了跨越六个感知维度(如可懂度和语音质量)的偏好,以创建一个多语言排行榜并理解模型权衡。