开发了一个新的基准 TF-RefusalBench,用于衡量和减轻在多语言刑事法律环境中使用的大型语言模型 (LLM) 的过度对齐问题。该基准包含 5,200 个法语、德语、意大利语和英语的提示,源自公开的瑞士联邦最高法院裁决。研究人员发现,过度对齐受模型和语言的影响,其影响不仅限于简单的拒绝,还会影响任务的忠实度。研究还评估了缓解策略,表明虽然提示可以提供帮助,但消除拒绝指令的有效性仅会造成最小的性能下降。 AI
影响 这项研究通过解决过度对齐和拒绝问题,有望在敏感的法律领域实现更可靠的大型语言模型应用。
排序理由 该项目是一篇学术论文,介绍了一个新的基准和评估方法论,用于大型语言模型。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →