English(EN) Measuring & Mitigating Over-Alignment for LLMs in Multilingual Criminal Law Courts

新基准衡量刑事法律中大型语言模型的过度对齐

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 14:08

开发了一个新的基准 TF-RefusalBench，用于衡量和减轻在多语言刑事法律环境中使用的大型语言模型 (LLM) 的过度对齐问题。该基准包含 5,200 个法语、德语、意大利语和英语的提示，源自公开的瑞士联邦最高法院裁决。研究人员发现，过度对齐受模型和语言的影响，其影响不仅限于简单的拒绝，还会影响任务的忠实度。研究还评估了缓解策略，表明虽然提示可以提供帮助，但消除拒绝指令的有效性仅会造成最小的性能下降。 AI

影响这项研究通过解决过度对齐和拒绝问题，有望在敏感的法律领域实现更可靠的大型语言模型应用。

排序理由该项目是一篇学术论文，介绍了一个新的基准和评估方法论，用于大型语言模型。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Andrei Kucharavy · 2026-06-22 14:08

Measuring & Mitigating Over-Alignment for LLMs in Multilingual Criminal Law Courts

While the wider applicability of LLMs in the legal field is currently debated due to their reliability and the gravity of any errors, narrow uses with well-understood and mitigated risks have emerged. Notably the Swiss Federal Supreme Court uses small on-premises models for tenta…

报道来源 [1]

Measuring & Mitigating Over-Alignment for LLMs in Multilingual Criminal Law Courts

相关实体

相关话题