实体 HHH (Helpful, Harmless, Honest)-violating outputs

HHH (Helpful, Harmless, Honest)-violating outputs

PulseAugur coverage of HHH (Helpful, Harmless, Honest)-violating outputs — every cluster mentioning HHH (Helpful, Harmless, Honest)-violating outputs across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_56345 · May 27 · 15:59

新研究探讨用于人工智能安全数据生成的激活引导

一篇新研究论文探讨了激活引导（AS）在为安全检测模型训练生成合成数据方面的有效性。研究发现，虽然AS在某些概念上与传统提示方法相比可以提高分类器性能，但其效用仅限于平衡概念对齐、连贯性和多样性的狭窄配置范围。该研究将多样性引入为调整AS的一个关键的、先前被忽视的指标，并建议其与成功率和连贯性的调和平均值可作为从业者的实用启发式方法。

新研究探讨用于人工智能安全数据生成的激活引导