English(EN) TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching

新的TBPO方法在令牌级别优化语言模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-12 15:44

研究人员推出了一种新的方法，称为令牌级布雷格曼偏好优化（TBPO），用于使用成对偏好来对齐语言模型。与目前关注完整序列的现有方法不同，TBPO在令牌级别运行，根据前面的上下文对单个下一个令牌动作的偏好进行建模。与当前方法相比，这种方法旨在提高对齐质量、训练稳定性和输出多样性。 AI

影响在令牌级别引入了一种新的原则性语言模型对齐方法，有望提高训练效率和输出质量。

排序理由该集群包含一篇详细介绍语言模型对齐新颖方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Trung Le · 2026-05-12 15:44

TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching

Direct Preference Optimization (DPO) is a widely used RL-free method for aligning language models from pairwise preferences, but it models preferences over full sequences even though generation is driven by per-token decisions. Existing token-level extensions typically decompose …