研究人员推出了一种新的方法,称为令牌级布雷格曼偏好优化(TBPO),用于使用成对偏好来对齐语言模型。与目前关注完整序列的现有方法不同,TBPO在令牌级别运行,根据前面的上下文对单个下一个令牌动作的偏好进行建模。与当前方法相比,这种方法旨在提高对齐质量、训练稳定性和输出多样性。 AI
影响 在令牌级别引入了一种新的原则性语言模型对齐方法,有望提高训练效率和输出质量。
排序理由 该集群包含一篇详细介绍语言模型对齐新颖方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →