PulseAugur
实时 10:42:56
实体 HH-RLHF dataset

HH-RLHF dataset

PulseAugur coverage of HH-RLHF dataset — every cluster mentioning HH-RLHF dataset across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_62760 ·

    新框架在联邦学习中解耦大语言模型用户偏好

    研究人员开发了一个名为“带 Gumbel-Softmax 先验的联邦变分偏好对齐”(FedVPA-GP)的新框架,以解决在联邦学习环境中个性化大语言模型的挑战。该方法旨在解耦用户之间冲突的偏好,例如有用性与无害性,同时不损害数据隐私。通过引入联邦混合先验和正交损失,FedVPA-GP 稳定了变分推断,并强制分离偏好原型,在实验中优于单一模型基线。