研究人员开发了一种名为基于分裂树的分词(ToaST)的新子词分词方法。该方法通过将文本递归地分裂成二叉树并基于整数规划松弛选择词汇来优化压缩。与BPE和WordPiece等现有方法相比,ToaST在词元数量上减少了11%,并在训练1.5B参数语言模型方面取得了更好的性能。 AI
影响 这种新的分词方法通过减少词元数量和延长有效上下文长度,有望实现更高效的语言模型。
排序理由 该集群包含一篇详细介绍一种新的子词分词方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →