实体 Representation Engineering

Representation Engineering

PulseAugur coverage of Representation Engineering — every cluster mentioning Representation Engineering across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_123130 · Jul 3 · 04:00

新基准评估LLM的情感引导和可信度

研究人员开发了PsySET，一个旨在评估大型语言模型（LLM）在情感状态和个性特征被操纵时的有效性和可信度的新基准。该研究使用包括提示工程、微调和表示工程在内的各种引导技术，测试了四个不同的LLM家族。结果表明，虽然提示工程有效，但缺乏细粒度控制，而向量注入提供了更好的可控性，但可能略微降低输出质量。研究还强调了潜在的可信度问题，例如积极情绪（如喜悦）会降低对事实不准确性的鲁棒性并增加偏见，而愤怒则会如预期般增加毒性，但提高了对数据泄露的抵抗力。

新基准评估LLM的情感引导和可信度