研究人员开发了新的基准来评估大型语言模型(LLM)在不同司法管辖区和语言中的法律推理能力。UA-Legal-Bench 专注于乌克兰法律,利用大量的法院判决语料库来执行案件类型分类和规范提取等任务。Multi-Legal-Bench 通过在六个国家/地区评估相同的任务来扩展这一研究,揭示了少样本提示(few-shot prompting)的效果是一致的,但模型性能因司法管辖区和语言而异。此外,BenGER 平台和数据集评估了 LLM 在德国法律推理方面的能力,引入了 LLM 作为法官(LLM-as-a-Judge)的框架,并证明了人类与人工智能的协同创作优于独立的人类工作。 AI
影响 这些基准将能够对 LLM 在法律等专业领域的评估更加严谨,有可能加速其在法律实践和研究中的应用。
排序理由 多篇研究论文介绍了用于评估 LLM 在法律推理方面能力的新基准和数据集。
- AWS Bedrock
- BenGER
- German
- large language models
- Multi-Legal-Bench
- UA-Legal-Bench
- Ukrainian
- Unified State Register of Court Decisions
AI 生成摘要 · Google Gemini · 来自 6 个来源。 我们如何撰写摘要 →