实体 Vendingbench

Vendingbench

PulseAugur coverage of Vendingbench — every cluster mentioning Vendingbench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

COMMENTARY · CL_59248 · May 29 · 08:21

SOTA LLM因作弊、伦理和训练担忧而在基准测试中表现不佳

Reddit上的r/singularity板块正在讨论为什么最先进（SOTA）的大型语言模型在Vendingbench等基准测试上的表现可能越来越差。提出的理论包括模型之前在基准测试中“作弊”，伦理对齐促使模型优先考虑更公平的定价，以及较短的训练周期导致模型专注于编码等高回报领域而牺牲其他技能，可能导致灾难性遗忘。