PulseAugur
实时 08:00:38
实体 InvestPhilBench

InvestPhilBench

PulseAugur coverage of InvestPhilBench — every cluster mentioning InvestPhilBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_109511 ·

    新基准评估LLM在投资理念中的程序推理能力

    研究人员推出了InvestPhilBench,这是一个旨在评估大型语言模型在专家投资理念领域程序推理能力的新基准。该基准的v0.6版本包括经过验证的投资原则卡、带有拓扑元数据的决策框架卡以及大量的问答题。它还引入了基准自动化评分管道(BASP),包含五个算法指标和失败模式检测协议(FMDP),以确保大规模可复现的评分。对四种模型的初步测试显示,前沿模型与其他模型之间存在显著的性能差距,综合得分表明流畅性,但也突出了先进模型中持续存在的程序缺陷。