研究人员开发了一个框架,用于审计大型语言模型(LLM)在照护支持角色中的安全性。通过定义四个不同的角色——告知(Inform)、指导(Coach)、关联(Relate)和倾听(Listen),并针对来自在线痴呆症社区的真实查询进行测试,研究发现LLM被分配的角色对其安全状况有显著影响。人类评估显示,尽管更具指导性的角色表现出更高的互动风险,但它们被认为更有用和更值得信赖,存在一种权衡。该研究发布了一个模型响应数据集,以促进对更安全的LLM介导的对话支持的进一步研究。 AI
影响 这项研究为评估LLM在敏感照护应用中的安全性提供了一个框架,可能影响模型如何部署以及如何为用户福祉进行审计。
排序理由 该集群包含一篇学术论文,详细介绍了一种在特定应用场景下评估LLM安全性的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →