English(EN) FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning

新的基准显示大型语言模型在阿拉伯语和符号金融推理方面存在困难

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-01 04:00

研究人员推出了 SAHM，这是一个旨在评估大型语言模型阿拉伯语金融和符合伊斯兰教法（Shari'ah）的推理能力的新基准。该基准包含七个任务中超过 14,000 个专家验证的实例，填补了阿拉伯语金融自然语言处理领域的重大空白。对 20 个大型语言模型的评估显示，虽然模型在识别任务上表现良好，但它们的金融推理能力，特别是在事件-原因分析方面，则明显较弱。另外，FinChain 基准的开发旨在评估金融领域中可验证的思维链推理，使用参数化模板和可执行代码进行可扩展的数据生成。FinChain 对 26 个大型语言模型的评估突显了多步符号金融推理的局限性，尽管经过领域适应的模型有所改进。 AI

影响用于阿拉伯语金融推理和金融领域可验证思维链的新基准可能会推动更值得信赖和专业化的金融人工智能工具的发展。

排序理由两篇新的学术论文介绍了用于评估大型语言模型金融推理能力的基准，一篇侧重于阿拉伯语和伊斯兰教法合规性，另一篇侧重于可验证的思维链。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Rania Elbadry, Sarfraz Ahmad, Ahmed Heakl, Dani Bouch, Momina Ahsan, Muhra AlMahri, Marwa Elsaid khalil, Yuxia Wang, Salem Lahlou, Sophia Ananiadou, Veselin Stoyanov, Jimin Huang, Xueqing Peng, Preslav Nakov, Zhuohan Xie · 2026-05-04 04:00

SAHM：阿拉伯金融和符合伊斯兰教法推理的基准

arXiv:2604.19098v2 Announce Type: replace-cross Abstract: English financial NLP has advanced rapidly through benchmarks targeting earnings analysis, market sentiment, tabular reasoning, and financial question answering, yet Arabic financial NLP remains virtually nonexistent, desp…
arXiv cs.AI TIER_1 English(EN) · Zhuohan Xie, Daniil Orel, Rushil Thareja, Dhruv Sahnan, Hachem Madmoun, Fan Zhang, Debopriyo Banerjee, Georgi Georgiev, Xueqing Peng, Lingfei Qian, Jimin Huang, Jinyan Su, Aaryamonvikram Singh, Rui Xing, Rania Elbadry, Chen Xu, Haonan Li, Fajri Koto, Ivan · 2026-05-01 04:00

FinChain：一个用于可验证思维链金融推理的符号基准

arXiv:2506.02515v4 Announce Type: replace-cross Abstract: Multi-step symbolic reasoning is essential for robust financial analysis; yet, current benchmarks largely overlook this capability. Existing datasets such as FinQA and ConvFinQA emphasize final numerical answers while negl…

报道来源 [2]

SAHM：阿拉伯金融和符合伊斯兰教法推理的基准

FinChain：一个用于可验证思维链金融推理的符号基准

相关实体

相关话题