研究人员推出了InvestPhilBench,这是一个旨在评估大型语言模型在专家投资理念领域程序推理能力的新基准。该基准的v0.6版本包括经过验证的投资原则卡、带有拓扑元数据的决策框架卡以及大量的问答题。它还引入了基准自动化评分管道(BASP),包含五个算法指标和失败模式检测协议(FMDP),以确保大规模可复现的评分。对四种模型的初步测试显示,前沿模型与其他模型之间存在显著的性能差距,综合得分表明流畅性,但也突出了先进模型中持续存在的程序缺陷。 AI
影响 该基准通过突出和解决程序推理差距,可能促使更强大的LLM金融分析助手。
排序理由 该项目描述了一个用于评估LLM的新基准和方法论,作为一篇研究论文发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]
- CKCA
- Claude
- Graz
- Institutional Venture Partners
- InvestPhilBench
- Khoury College of Computer Sciences
- N(3)-(4-methoxyfumaroyl)-2,3-diaminopropionic acid
- SAP@k
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →