byte-pair encoding · PulseAugur

新的分词方法提升了NLP的跨语言公平性

研究人员开发了一种名为Parity-Aware Byte-Pair Encoding (BPE) 的新分词算法，以解决自然语言处理中的跨语言公平性问题。传统的BPE方法偏向于主导语言，导致低资源语言的分词更长或效果不佳。新的Parity-aware BPE算法修改了合并步骤，优先压缩压缩效果最差的语言，显著减少了分词不平等。该方法在减少分词不平等方面显示出高达89%的相对改进，对整体压缩率影响很小，且对下游语言模型的性能没有损害。

RESEARCH · CL_131332 · Jul 6 · 00:00

BPE 对比 Unigram-LM：分词算法为化学 SMILES 创建了不同的词汇表

一篇新的研究论文探讨了两种常见的分词方法——字节对编码 (BPE) 和 Unigram-LM——在应用于化学 SMILES 字符串时产生的差异。研究发现，这些算法会产生显著不同的词汇表，其中 Unigram-LM 将分子分割成比 BPE 更多的 token。这表明子词算法的选择对于化学语言模型来说是一个关键的建模决策，而不是一个默认设置。

RESEARCH · CL_117645 · Jun 30 · 04:00

新研究应对大语言模型对齐、安全和优化挑战

研究人员正在探索改进大语言模型（LLM）对齐和可靠性的新方法。一项研究发现字节对编码（BPE）分词中存在一个漏洞，该漏洞可能被利用来绕过安全机制，导致多个模型系列产生有害输出。另一篇论文提出了一个名为HAL的框架，通过优化明确的、可解释的对话特征来诱导大语言模型产生类似人类的对话行为。此外，一个名为Object Aligner的新库提供了一种可配置的方法来评估JSON模式相似度，这对于大语言模型提示优化和工具使用非常有用。最后，对大语…

RESEARCH · CL_117319 · Jun 29 · 11:20

研究论文质疑LLM在基因组学任务上的预训练成本

一篇新的研究论文评估了预训练大型语言模型（LLM）在基因组学任务上的有效性。该研究质疑了像DNABERT2这样的基于Transformer模型的显著计算成本是否能通过优于ConvNova等传统卷积模型的性能提升来证明其合理性。它还考察了预训练的贡献以及字节对编码（BPE）分词对DNA序列表示的影响。

RESEARCH · CL_111600 · Jun 25 · 13:31

MinGram 分词器简化训练，提高压缩率和对齐效果

研究人员推出了一种名为 MinGram 的新型极简单元语言模型分词器，旨在简化训练过程，同时保持高压缩率和形态对齐。MinGram 通过使用派生自 BPE 的种子词汇表和简化的训练程序来实现这一目标，该程序去除了标准单元语言模型分词器中的复杂组件。在六种语言的测试中，MinGram 在压缩率方面优于 BPE 和标准单元语言模型方法，并且在下游语言模型训练中的表现（以每字节比特数衡量）始终优于 BPE。

COMMENTARY · CL_106973 · Jun 23 · 17:13

大语言模型在字母计数方面遇到困难是因为分词，而非拼写错误

大型语言模型在诸如计算字母或押韵等任务中遇到困难，因为它们的输入是由分词器处理的，通常使用字节对编码（BPE），它将文本转换为整数标记ID。这个过程破坏了字符级信息，意味着模型操作的是不透明的序列而不是原始文本。虽然BPE将频繁的字符对合并为标记，但它优先考虑频率而非语言结构，导致常用词成为单个标记，而罕见词被分割。因此，需要字符级分析的任务，例如计算字母或倒序拼写，对大语言模型来说是困难的，因为它们无法直接访问这些信息，必须依赖于训…

RESEARCH · CL_107826 · Jun 22 · 21:04

新基准QuechuaTok凸显黏着语分词的局限性

一个名为QuechuaTok的新基准已被开发出来，用于评估黏着语、低资源语言的分词策略。标准的指标如生育率（fertility rate）是不够的，因此QuechuaTok引入了词缀边界准确性（MorphAcc）。该研究在南部盖丘亚语上比较了BPE、Unigram LM、WordPiece以及一个具有形态感知能力的PRPE分词器，发现PRPE比优先考虑表面词形（surface word forms）的BPE取得了显著更高的MorphAcc。

TOOL · CL_106192 · Jun 20 · 08:35

minbpe vs turboBPE：更快的LLM分词器训练解析

本文比较了两个用于训练字节对编码（BPE）分词器的Python库，这对于Llama和Mistral AI等大型语言模型至关重要。Andrej Karpathy开发的minbpe被认为是一个从头开始理解BPE的绝佳教育工具，但其纯Python实现导致在更大的数据集上训练速度较慢。基于minbpe构建的turboBPE通过引入批量合并和C扩展，显著加速了训练过程，将可比数据集的训练时间从几小时缩短到几秒钟，同时保持了相似的API。

RESEARCH · CL_99595 · Jun 18 · 11:10

新的IHUBERT模型通过精选预训练提升波斯语理解能力

研究人员开发了IHUBERT，一个基于RoBERTa-base编码器的新波斯语语言模型。该模型在Sepahr-Danesh集合中一个45 GB的精选数据集上进行了训练，总计约70-80亿个token。IHUBERT采用多阶段预处理流程，包括语义去重，以提高语料库质量并平衡领域表示。该模型在各种自然语言理解基准测试中表现强劲，尤其在抽取式问答任务中表现出色。

RESEARCH · CL_99667 · Jun 17 · 22:06

新框架TOTEN改进了技术符号的标记化

研究人员开发了TOTEN，一个基于知识的本体标记化框架，旨在改进巴西葡萄牙语中技术符号的语义理解。与传统的字节对编码不同，TOTEN使用工程实体的形式本体来分类和表示物理量、单位和表达式。评估表明，TOTEN在本体原子性和数值重构方面显著优于最先进的基线，证明了其鲁棒性和准确性。

TOOL · CL_95561 · Jun 17 · 01:10

minbpe vs turboBPE: 更快的 LLM BPE 分词

对字节对编码（BPE）分词算法的两种不同实现进行了比较：minbpe，一个纯 Python 的教学工具；以及 turboBPE，一个显著更快的基于 C 扩展的实现。虽然 minbpe 非常适合理解核心 BPE 概念，但由于其迭代统计扫描方法，其性能对于大规模训练来说不切实际。turboBPE 通过引入批量合并和编译代码来解决这个问题，在保持与 minbpe 兼容的 API 的同时，大大缩短了训练和编码时间。

TOOL · CL_76751 · Jun 7 · 23:55

字节对编码解释：从头开始构建大型语言模型分词

本文解释了字节对编码（BPE），这是一种对大型语言模型（LLMs）至关重要的分词技术。BPE通过创建子词单元来解决词级别分词（词汇外词语）和字符级别分词（效率低下和结构丢失）的局限性。该过程包括从字符开始，迭代地合并最频繁的相邻对以形成新词元，并重复此过程直到构建出所需的词汇表。这种方法使大型语言模型能够有效处理未见过的词语并共享相关词根之间的含义。

RESEARCH · CL_76045 · Jun 7 · 00:53

LLM 详解：从数据到文本生成

本文详细解释了大型语言模型 (LLM) 的运作方式，分解了其操作所涉及的复杂流程。它涵盖了从数据准备和分词到嵌入、Transformer 架构中的自注意力机制以及最终预测下一个词元（token）的关键阶段。该解释旨在为普通读者揭开这一过程的神秘面纱，强调了诸如字节对编码 (Byte Pair Encoding) 和词元向量表示在赋予词元含义方面的作用等关键概念。

TOOL · CL_69108 · Jun 3 · 15:27

研究人员提出用于语言模型的语义分词方法

一位研究人员提出了一种新颖的语言模型分词方案，其中词元几何本身反映语义关系，超越了当前主要捕捉统计结构的方法。该方法会将概念映射到代码，使得语义相似的概念获得相似的代码，从而可能提高样本效率、训练速度和可解释性。该想法包括构建语义图、学习紧凑的符号编码，并对其进行优化，使代码距离与语义距离相关联，目标是直接将语义结构嵌入表示中。

TOOL · CL_62858 · Jun 1 · 04:00

新的BPE分词算法提供3倍加速

研究人员开发了一种新的增量字节对编码（BPE）分词算法，旨在提高大型语言模型管道的效率。该方法以对数时间处理输入字节，实现了O(n log^2 t)的总体复杂度，与Hugging Face的tokenizers等现有工具相比，速度提高了3倍。该算法还引入了一种用于流式分词的即时输出机制，使其适用于实时应用。

TOOL · CL_58840 · May 29 · 04:00

Kronecker Embeddings 削减语言模型参数，提升性能

研究人员开发了 Kronecker Embeddings，一种表示语言模型中标记的新颖方法，可显著减少可训练参数的数量。该方法用固定的编码器和学习到的投影替换大型嵌入表，将参数数量减少了 91-94%。实验表明，与传统的 BPE 绑定嵌入相比，Kronecker Embeddings 可带来更低的验证损失和更快的收敛速度，同时还能提高对拼写错误的鲁棒性，并通过生成保留字节级信息。

TOOL · CL_45717 · May 23 · 10:55

LLM 分词器惩罚随机字符删除，增加成本

一位 AI 系统管理员发现，为了节省 token 成本而从 LLM prompt 中随机删除字符实际上会增加 token 数量。这是因为像字节对编码 (BPE) 和 SentencePiece 这样的分词器是在干净文本上训练的，并且难以处理损坏的输入。当删除字符时，分词器会回退到对更小的片段进行编码，通常是在字节级别，导致 token 数量比原始文本更多。一项实验表明，删除 25% 的字符会导致 prompt token 数量增加 2…

RESEARCH · CL_43967 · May 21 · 17:59

新的ConvexTok算法使用凸优化来优化NLP分词

研究人员开发了一种新的分词算法，称为ConvexTok，它使用凸优化来构建分词器。与现有的贪婪方法（如BPE和Unigram）不同，ConvexTok考虑整个词汇表以做出最优决策。该算法在分词指标、语言模型的每字节比特数方面表现出改进，并提供了最优性的认证，在常见的词汇量大小下，其结果接近最优值的1%。

RESEARCH · CL_43970 · May 21 · 16:46

新的ToaST分词器将词元数量减少了11%以上

研究人员开发了一种名为基于分裂树的分词（ToaST）的新子词分词方法。该方法通过将文本递归地分裂成二叉树并基于整数规划松弛选择词汇来优化压缩。与BPE和WordPiece等现有方法相比，ToaST在词元数量上减少了11%，并在训练1.5B参数语言模型方面取得了更好的性能。

RESEARCH · CL_30772 · May 13 · 13:08

论文分析数据表示如何影响Transformer上下文

一篇新论文分析了数据（如字节、字符或子词标记）的不同表示如何影响Transformer模型的性能。该研究引入了“分片”的概念，解释了为什么即使有更大的上下文窗口，更小的单元也会降低预测准确性。相反，该研究表明分词如何有效地扩展感知到的上下文窗口，为理解Transformer中的表示选择提供了一个框架。