PulseAugur
实时 12:27:18
实体 Kensuke Okada

Kensuke Okada

PulseAugur coverage of Kensuke Okada — every cluster mentioning Kensuke Okada across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_08621 ·

    研究人员量化并减轻大型语言模型中的社会期望反应

    研究人员开发了一个新框架,用于识别和减少大型语言模型(LLMs)在使用自我报告问卷进行评估时出现的社会期望反应(SDR)。这种SDR是指模型提供符合期望的答案而非诚实答案,这会影响对角色一致性、安全性和偏见的评估结果。所提出的方法通过比较诚实指令和虚假良好指令下的响应来量化SDR,并使用等级强制选择清单来减轻它,结果显示在保留角色恢复能力的同时,SDR显著降低。