引入了一个新的基准Scribe Finance,用于评估多模态模型理解复杂法国金融文件的能力。该基准包含文本提取、表格理解和图表解读方面的问题,结果显示,尽管当前的视觉语言模型(VLMs)在文本和表格任务上表现良好,但在图表分析方面却面临显著困难。此外,研究强调了一种关键的失败模式,即多轮对话中的初始错误会不断累积,导致准确性大幅下降,而与模型大小无关。 AI
影响 凸显了当前VLMs在复杂金融分析中的脆弱性,表明需要改进图表解读和错误传播处理能力。
排序理由 该集群描述了一篇介绍新基准数据集和现有模型评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →