实体 StakeBench

StakeBench

PulseAugur coverage of StakeBench — every cluster mentioning StakeBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_50601 · May 25 · 17:38

新的StakeBench框架评估LLM的市场承诺能力

研究人员推出StakeBench，一个旨在通过基于市场承诺而非主观人类标签来评估大型语言模型（LLM）语言理解能力的新评估框架。该框架利用了来自Polymarket和Manifold等平台已解决市场的超过56万条评论，将其与可观察到的交易行为和市场赔率联系起来。对15个LLM的初步评估显示，虽然模型可以部分恢复仓位信号，但它们在预测未来行动或进行集体赔率预测等更复杂的任务上遇到困难，模型规模和金融领域调优与性能的相关性很小。