PulseAugur
实时 21:51:18
实体 Nan Lu

Nan Lu

PulseAugur coverage of Nan Lu — every cluster mentioning Nan Lu across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_11872 ·

    新统计框架改进了AI与人类反馈的对齐

    研究人员开发了一个新的统计框架,用于从人类反馈中进行强化学习(RLHF),以改进大型模型与人类偏好的对齐方式。该方法利用人类反馈的动态上下文信息,同时处理在线决策和统计推断。提出的两阶段算法结合了epsilon-greedy探索与利用,实现了最优遗憾界限和估计量的渐近分布,在模拟中优于现有策略。该框架应用于分析人类对Massive Multitask Language Understanding数据集上大型语言模型排名的偏好,为LLM…