PulseAugur
实时 13:28:07
English(EN) FinBalance: A Multi-Document Accounting Reconciliation Benchmark

新基准揭示大型语言模型难以处理多文档会计对账

研究人员推出了 FinBalance,一个旨在评估大型语言模型在多文档会计对账能力的新基准。该基准由来自不同行业和难度级别的源文档构建而成,旨在评估模型将源文档对账生成日记账分录、将其汇总成资产负债表以及识别矛盾的能力。当前领先的大型语言模型在此任务上面临困难,在最终资产负债表上的准确率较低,并且其报告的资产负债表与通过重放其分录得出的资产负债表之间存在显著差距。模型经常生成数值上看似合理的分录,但未能将其与支持性文档关联起来,或在汇总过程中保持一致性。 AI

排序理由 该集群描述了一篇新发布的 arXiv 学术基准论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Sasank Tumpati, Devansh Agarwal, Ayush Kedia, Arjun Neekhra, Murari Mandal, Krishna Garg, Yash Sinha, Suman Gupta, Dhruv Kumar ·

    FinBalance: A Multi-Document Accounting Reconciliation Benchmark

    arXiv:2606.15949v1 Announce Type: new Abstract: Existing financial-NLP benchmarks mostly evaluate prepared artifacts such as filings, tables, or extracted values. Real accounting begins earlier: source documents must be reconciled into cited journal entries, aggregated into a bal…