一篇新论文评估了商业和开源大型语言模型在阿拉伯语伊斯兰继承推理任务上的表现。研究发现,商业模型普遍优于开源模型,在识别继承人、应用排除规则和保持一致性方面表现出更高的可靠性。Gemini 2.5 Flash 在评估的模型中表现最佳,平均倒数误差(MRE)为 0.989。 AI
影响 凸显了开源模型在复杂法律和数值推理方面的现有局限性,并指出了未来发展的方向。
排序理由 这是一篇评估LLM在特定推理任务上表现的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →