PulseAugur
实时 13:28:09

新的SHARD方法通过自我重构提升LLM的安全性和有用性

研究人员开发了一种新颖的自我重构蒸馏方法SHARD,旨在提高大型语言模型在响应敏感提示时的安全性和有用性。该技术包括重写提示以识别良性意图,将模型响应重塑为更安全、更有用的版本,然后对模型进行这些自我重塑输出的微调。在DNA和LINGUASAFE数据集上的评估表明,SHARD在不同模型系列中提高了有用性,同时保持了安全性,并且其性能与从更大的教师模型进行蒸馏相当。 AI

影响 增强LLM的安全性和有用性,可能减少对敏感查询的有害或无用响应。

排序理由 该集群包含一篇学术论文,详细介绍了提高LLM安全性和有用性的一种新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Viswonathan Manoranjan, Amogh Gupta, Anvesh Rao Vijjini, Thomas Hofweber, Snigdha Chaturvedi ·

    SHARD: Safe and Helpful Alignment via Self-Reframing Distillation

    arXiv:2606.15517v1 Announce Type: new Abstract: Large language models often struggle with sensitive prompts. They may refuse outright, provide generic safety boilerplate, or fail to address the user's legitimate informational needs that can be answered safely. We introduce SHARD,…