PulseAugur
实时 15:48:55
实体 preference data

preference data

PulseAugur coverage of preference data — every cluster mentioning preference data across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_04993 ·

    新的“行为金丝雀”审计LLM在RL微调中的训练数据使用情况

    研究人员开发了一种名为行为金丝雀的新审计方法,用于检测大型语言模型(LLM)在人类反馈强化学习(RLHF)微调过程中是否不当使用受法律保护的检索上下文。传统的审计技术,如逐字记忆检查,对于RLHF来说是不够的,因为这个过程会改变模型的行为,而不是记忆特定的事实。行为金丝雀框架引入了文档触发器与反馈配对,以产生风格化的响应,使审计人员能够以67%的检测率和10%的误报率识别未经授权的数据合并。