PulseAugur
实时 09:42:53
实体 ChainEval

ChainEval

PulseAugur coverage of ChainEval — every cluster mentioning ChainEval across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_123147 ·

    新的俄罗斯金融基准揭示了大型语言模型的推理差距

    研究人员推出了 RusFinChain,这是一个专为评估俄语金融领域可验证思维链推理而设计的新基准。该基准包含 17 个领域中超过 5000 个参数化示例,每个示例都附带一个黄金标准推理链,用于自动验证。对八个开源大语言模型的初步评估显示,其推理能力存在显著差距,模型在步骤对齐方面的 F1 分数约为 0.65,但最终问题的正确回答率仅为 29% 左右。该研究还提出了新的指标——模糊数值对齐和软注意力对齐,与现有的评估方法相比,这些指标…