研究人员推出了 FinBalance,一个旨在评估大型语言模型在多文档会计对账能力的新基准。该基准由来自不同行业和难度级别的源文档构建而成,旨在评估模型将源文档对账生成日记账分录、将其汇总成资产负债表以及识别矛盾的能力。当前领先的大型语言模型在此任务上面临困难,在最终资产负债表上的准确率较低,并且其报告的资产负债表与通过重放其分录得出的资产负债表之间存在显著差距。模型经常生成数值上看似合理的分录,但未能将其与支持性文档关联起来,或在汇总过程中保持一致性。 AI
排序理由 该集群描述了一篇新发布的 arXiv 学术基准论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →