PulseAugur
实时 10:26:47
实体 d-RLAIF

d-RLAIF

PulseAugur coverage of d-RLAIF — every cluster mentioning d-RLAIF across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_98075 ·

    新的强化学习流程利用叙事理论增强大型语言模型的故事讲述能力

    研究人员开发了一个名为 Retell, Reward, Repeat (RRR) 的新强化学习流程,旨在提高大型语言模型 (LLM) 的故事讲述能力。该方法整合了结构主义叙事学和标量叙事学,以训练 LLM 生成逻辑合理的故事事件,解决了当前 SFT 等训练后技术存在的不足。RRR 利用合成的 TimeTravel 数据集,并通过 d-RLAIF 从文本特征中提取训练信号,无需参考输出。评估表明,经 RRR 训练的 LLM 在逻辑性、合…