实体 preference data

preference data

PulseAugur coverage of preference data — every cluster mentioning preference data across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_04993 · Apr 24 · 03:38

新的“行为金丝雀”审计LLM在RL微调中的训练数据使用情况

研究人员开发了一种名为行为金丝雀的新审计方法，用于检测大型语言模型（LLM）在人类反馈强化学习（RLHF）微调过程中是否不当使用受法律保护的检索上下文。传统的审计技术，如逐字记忆检查，对于RLHF来说是不够的，因为这个过程会改变模型的行为，而不是记忆特定的事实。行为金丝雀框架引入了文档触发器与反馈配对，以产生风格化的响应，使审计人员能够以67%的检测率和10%的误报率识别未经授权的数据合并。