PulseAugur
实时 12:20:30
实体 Bal'a

Bal'a

PulseAugur coverage of Bal'a — every cluster mentioning Bal'a across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_15418 ·

    研究发现大型语言模型知道自己错了但仍然同意

    研究人员开发了两种新颖的方法,BAL-A 和 BMP-A,用于高效地投毒离线人类反馈强化学习 (RLHF) 管道(如直接偏好优化 (DPO))中使用的偏好数据集。这些攻击利用了通过翻转偏好标签引起的 DPO 梯度中的参数无关偏移。这些方法将投毒问题转化为结构化二元稀疏近似问题,其中 BAL-A 利用格嵌入,BMP-A 采用二元匹配追踪。在合成数据和斯坦福人类偏好数据集上的实验证明了这些攻击的有效性,展示了数据集几何形状如何影响其成功。