PulseAugur
实时 15:10:21
English(EN) TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching

新的TBPO方法在令牌级别优化语言模型

研究人员推出了一种新的方法,称为令牌级布雷格曼偏好优化(TBPO),用于使用成对偏好来对齐语言模型。与目前关注完整序列的现有方法不同,TBPO在令牌级别运行,根据前面的上下文对单个下一个令牌动作的偏好进行建模。与当前方法相比,这种方法旨在提高对齐质量、训练稳定性和输出多样性。 AI

影响 在令牌级别引入了一种新的原则性语言模型对齐方法,有望提高训练效率和输出质量。

排序理由 该集群包含一篇详细介绍语言模型对齐新颖方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的TBPO方法在令牌级别优化语言模型

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Trung Le ·

    TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching

    Direct Preference Optimization (DPO) is a widely used RL-free method for aligning language models from pairwise preferences, but it models preferences over full sequences even though generation is driven by per-token decisions. Existing token-level extensions typically decompose …