研究人员推出SearchFireSafety,一个旨在评估大型语言模型在以法规为中心的法律问答中性能和安全性的新基准。与以往侧重于判例法的基准不同,SearchFireSafety解决了从层级链接的法规文档中检索信息的挑战,并评估模型在上下文不足时弃答的能力。实验表明,虽然图引导检索提高了性能,但领域适应模型表现出关键的安全权衡,在缺少关键法规证据时更容易产生幻觉。 AI
影响 强调了需要专门的基准来确保LLM能够安全准确地处理复杂的法律法规,超越判例法。
排序理由 该集群包含一篇在arXiv上发表的学术论文,详细介绍了一个用于评估AI模型的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →