English(EN) Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

新基准评估LLM在法律法规问答中的安全性和检索能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员推出SearchFireSafety，一个旨在评估大型语言模型在以法规为中心的法律问答中性能和安全性的新基准。与以往侧重于判例法的基准不同，SearchFireSafety解决了从层级链接的法规文档中检索信息的挑战，并评估模型在上下文不足时弃答的能力。实验表明，虽然图引导检索提高了性能，但领域适应模型表现出关键的安全权衡，在缺少关键法规证据时更容易产生幻觉。 AI

影响强调了需要专门的基准来确保LLM能够安全准确地处理复杂的法律法规，超越判例法。

排序理由该集群包含一篇在arXiv上发表的学术论文，详细介绍了一个用于评估AI模型的新基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Kyubyung Chae, Jewon Yeom, Jeongjae Park, Seunghyun Bae, Ijun Jang, Hyunbin Jin, Jinkwan Jang, Taesup Kim · 2026-06-16 04:00

Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

arXiv:2604.06173v2 Announce Type: replace-cross Abstract: Legal QA benchmarks have predominantly focused on case law, overlooking the unique challenges of statute-centric regulatory reasoning. In statutory domains, relevant evidence is distributed across hierarchically linked doc…

报道来源 [1]

Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

相关实体

相关话题