PulseAugur
实时 15:27:19
English(EN) MinGram: A Minimalist Unigram Tokenizer with High Compression and Competitive Morphological Alignment

MinGram 分词器简化训练,提高压缩率和对齐效果

研究人员推出了一种名为 MinGram 的新型极简单元语言模型分词器,旨在简化训练过程,同时保持高压缩率和形态对齐。MinGram 通过使用派生自 BPE 的种子词汇表和简化的训练程序来实现这一目标,该程序去除了标准单元语言模型分词器中的复杂组件。在六种语言的测试中,MinGram 在压缩率方面优于 BPE 和标准单元语言模型方法,并且在下游语言模型训练中的表现(以每字节比特数衡量)始终优于 BPE。 AI

影响 为语言模型提供了一种更有效、更高效的分词方法,有望提高性能并降低计算成本。

排序理由 该集群包含一篇详细介绍自然语言处理中一种新分词方法的 ist 研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

MinGram 分词器简化训练,提高压缩率和对齐效果

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Sander Land ·

    MinGram: A Minimalist Unigram Tokenizer with High Compression and Competitive Morphological Alignment

    arXiv:2606.27019v1 Announce Type: new Abstract: The Unigram tokenizer uses an elegant representation which makes it straightforward to edit vocabularies, but its training is comparatively heavy and complex. We introduce MinGram (Minimalist Unigram), which keeps the token-list rep…

  2. arXiv cs.CL TIER_1 English(EN) · Sander Land ·

    MinGram: A Minimalist Unigram Tokenizer with High Compression and Competitive Morphological Alignment

    The Unigram tokenizer uses an elegant representation which makes it straightforward to edit vocabularies, but its training is comparatively heavy and complex. We introduce MinGram (Minimalist Unigram), which keeps the token-list representation but simplifies training using a BPE-…