English(EN) InvestPhilBench: A Multi-Layer Dynamic Benchmark for Evaluating Large Language Model Procedural Reasoning in Expert Investment Philosophy

新基准评估LLM在投资理念中的程序推理能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-24 15:53

研究人员推出了InvestPhilBench，这是一个旨在评估大型语言模型在专家投资理念领域程序推理能力的新基准。该基准的v0.6版本包括经过验证的投资原则卡、带有拓扑元数据的决策框架卡以及大量的问答题。它还引入了基准自动化评分管道（BASP），包含五个算法指标和失败模式检测协议（FMDP），以确保大规模可复现的评分。对四种模型的初步测试显示，前沿模型与其他模型之间存在显著的性能差距，综合得分表明流畅性，但也突出了先进模型中持续存在的程序缺陷。 AI

影响该基准通过突出和解决程序推理差距，可能促使更强大的LLM金融分析助手。

排序理由该项目描述了一个用于评估LLM的新基准和方法论，作为一篇研究论文发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Mingguang Chen, Bo Qu · 2026-06-25 04:00

InvestPhilBench: A Multi-Layer Dynamic Benchmark for Evaluating Large Language Model Procedural Reasoning in Expert Investment Philosophy

arXiv:2606.25984v1 Announce Type: cross Abstract: Large language models are increasingly deployed as investment research assistants, yet no benchmark tests whether they can accurately reconstruct and apply the specific procedural decision frameworks of expert investors. We introd…
arXiv cs.AI TIER_1 English(EN) · Bo Qu · 2026-06-24 15:53

InvestPhilBench: A Multi-Layer Dynamic Benchmark for Evaluating Large Language Model Procedural Reasoning in Expert Investment Philosophy

Large language models are increasingly deployed as investment research assistants, yet no benchmark tests whether they can accurately reconstruct and apply the specific procedural decision frameworks of expert investors. We introduce InvestPhilBench, a multi-layer dynamic benchma…

报道来源 [2]

InvestPhilBench: A Multi-Layer Dynamic Benchmark for Evaluating Large Language Model Procedural Reasoning in Expert Investment Philosophy

InvestPhilBench: A Multi-Layer Dynamic Benchmark for Evaluating Large Language Model Procedural Reasoning in Expert Investment Philosophy

相关实体

相关话题