PulseAugur
实时 14:43:40
实体 TBPO

TBPO

PulseAugur coverage of TBPO — every cluster mentioning TBPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-12 research_milestone Researchers published a paper introducing Token-level Bregman Preference Optimization (TBPO) for language model alignment. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_29384 ·

    新的TBPO方法在令牌级别优化语言模型

    研究人员推出了一种新的方法,称为令牌级布雷格曼偏好优化(TBPO),用于使用成对偏好来对齐语言模型。与目前关注完整序列的现有方法不同,TBPO在令牌级别运行,根据前面的上下文对单个下一个令牌动作的偏好进行建模。与当前方法相比,这种方法旨在提高对齐质量、训练稳定性和输出多样性。