English(EN) findsylls: A Language-Agnostic Toolkit for Syllable-Level Speech Tokenization and Embedding

新工具包简化了 AI 模型音节级语音标记化

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-17 04:00

两篇新研究论文介绍了一种用于音节级语音标记化的新颖工具包，旨在改进口语建模。第一个是“findsylls”，它提供了一个语言无关的工具包，统一了各种音节划分方法，以便在不同语言和资源级别上进行可复现的比较。第二个是“ZeroSyl”，它提出了一种更简单、零资源的方法，直接从 WavLM 等预训练语音模型中提取音节边界和嵌入，在多个基准测试中优于先前的音节标记器。 AI

影响通过改进语音的表示和处理方式，这些进步可能带来更高效、更准确的口语模型。

排序理由 arXiv 上发表的两篇学术论文介绍了语音标记化的新方法和工具包。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · H\'ector Javier V\'azquez Mart\'inez · 2026-06-17 04:00

findsylls: A Language-Agnostic Toolkit for Syllable-Level Speech Tokenization and Embedding

arXiv:2603.26292v2 Announce Type: replace-cross Abstract: Syllable-level units offer compact and linguistically meaningful representations for spoken language modeling and unsupervised word discovery, but research on syllabification remains fragmented across disparate implementat…
arXiv cs.CL TIER_1 English(EN) · Nicol Visser, Simon Malan, Danel Slabbert, Herman Kamper · 2026-06-17 04:00

ZeroSyl: Simple Zero-Resource Syllable Tokenization for Spoken Language Modeling

arXiv:2602.15537v2 Announce Type: replace Abstract: Pure speech language models aim to learn language directly from raw audio without textual resources. A key challenge is that discrete tokens from self-supervised speech encoders result in excessively long sequences, motivating r…

报道来源 [2]

findsylls: A Language-Agnostic Toolkit for Syllable-Level Speech Tokenization and Embedding

ZeroSyl: Simple Zero-Resource Syllable Tokenization for Spoken Language Modeling

相关实体

相关话题