English(EN) RusFinChain: A Russian Benchmark for Verifiable Chain-of-Thought Reasoning in Finance with Fuzzy-Aligned Evaluation

新的俄罗斯金融基准揭示了大型语言模型的推理差距

作者 PulseAugur 编辑部 · [2 个来源] · 2026-07-01 18:48

研究人员推出了 RusFinChain，这是一个专为评估俄语金融领域可验证思维链推理而设计的新基准。该基准包含 17 个领域中超过 5000 个参数化示例，每个示例都附带一个黄金标准推理链，用于自动验证。对八个开源大语言模型的初步评估显示，其推理能力存在显著差距，模型在步骤对齐方面的 F1 分数约为 0.65，但最终问题的正确回答率仅为 29% 左右。该研究还提出了新的指标——模糊数值对齐和软注意力对齐，与现有的评估方法相比，这些指标与最终答案的正确性显示出更强的相关性。 AI

影响该基准有望改进俄语用户在金融推理任务中对大型语言模型的评估。

排序理由该集群描述了一篇介绍大型语言模型推理基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · M. K. Arabov · 2026-07-03 04:00

RusFinChain: A Russian Benchmark for Verifiable Chain-of-Thought Reasoning in Finance with Fuzzy-Aligned Evaluation

arXiv:2607.01388v1 Announce Type: new Abstract: Multi-step symbolic reasoning is essential for robust financial analysis, yet most benchmarks neglect intermediate reasoning steps. FINCHAIN introduced verifiable Chain-of-Thought (CoT) evaluation but is limited to English. FINESSE-…
arXiv cs.CL TIER_1 English(EN) · M. K. Arabov · 2026-07-01 18:48

RusFinChain: A Russian Benchmark for Verifiable Chain-of-Thought Reasoning in Finance with Fuzzy-Aligned Evaluation

Multi-step symbolic reasoning is essential for robust financial analysis, yet most benchmarks neglect intermediate reasoning steps. FINCHAIN introduced verifiable Chain-of-Thought (CoT) evaluation but is limited to English. FINESSE-Bench includes a Russian block but relies on mul…

报道来源 [2]

RusFinChain: A Russian Benchmark for Verifiable Chain-of-Thought Reasoning in Finance with Fuzzy-Aligned Evaluation

RusFinChain: A Russian Benchmark for Verifiable Chain-of-Thought Reasoning in Finance with Fuzzy-Aligned Evaluation

相关实体

相关话题