PulseAugur
实时 11:10:50
实体 RealFin

RealFin

PulseAugur coverage of RealFin — every cluster mentioning RealFin across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_07055 ·

    大型语言模型难以进行隐式金融推理,RealFin基准测试揭示

    一项名为RealFin的新基准测试旨在评估大型语言模型在关键信息被隐式省略的金融场景中进行推理的能力。研究人员发现,通用模型倾向于猜测答案,而不是识别缺失的前提,而专门从事金融的模型也难以胜任这项任务。该基准测试突显了当前评估中的一个重大差距,强调模型需要识别何时由于信息不足而无法可靠地回答问题。