PulseAugur
实时 18:40:57

X-Token 方法增强了不匹配分词器的知识蒸馏

研究人员开发了 X-Token,一种新颖的知识蒸馏技术,旨在通过学习具有不同分词器的教师模型来改进学生模型。该方法解决了现有基于 Logit 的蒸馏的局限性,例如不常见分词失败和过于保守的匹配,这可能抑制关键分词或排除近乎相等的分词。X-Token 利用稀疏投影矩阵来对齐学生和教师的分布,在 GSM8k 等基准测试中表现优于当前最先进的方法,并在多教师设置中取得了显著的收益。 AI

影响 改进了跨分词器的知识迁移,可能实现更高效的各种语言模型的训练。

排序理由 该集群包含一篇详细介绍机器学习中知识蒸馏新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 · Sharath Turuvekere Sreenivas, Adithyakrishna Venkatesh Hanasoge, Mingyu Yang, Ali Taghibakhshi, Saurav Muralidharan, Ashwath Aithal, Pavlo Molchanov ·

    X-Token: Projection-Guided Cross-Tokenizer Knowledge Distillation

    arXiv:2605.21699v1 Announce Type: cross Abstract: Cross-tokenizer knowledge distillation allows a student model to learn from teachers with incompatible vocabularies. Prior work operates on hidden states or logits; the latter is preferred as a drop-in replacement requiring no aux…