研究人员开发了一种新颖的自我重构蒸馏方法SHARD,旨在提高大型语言模型在响应敏感提示时的安全性和有用性。该技术包括重写提示以识别良性意图,将模型响应重塑为更安全、更有用的版本,然后对模型进行这些自我重塑输出的微调。在DNA和LINGUASAFE数据集上的评估表明,SHARD在不同模型系列中提高了有用性,同时保持了安全性,并且其性能与从更大的教师模型进行蒸馏相当。 AI
影响 增强LLM的安全性和有用性,可能减少对敏感查询的有害或无用响应。
排序理由 该集群包含一篇学术论文,详细介绍了提高LLM安全性和有用性的一种新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →