实体 LLM leaderboards

LLM leaderboards

PulseAugur coverage of LLM leaderboards — every cluster mentioning LLM leaderboards across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_58827 · May 29 · 04:00

计算机科学研究者不信任大型语言模型排行榜但仍在使用它们

一项新研究揭示，计算机科学研究者对大型语言模型（LLM）排行榜持有矛盾的看法。尽管普遍不信任其可靠性和稳健性，研究者们仍将这些排行榜作为非正式的决策参考。选择模型的主要机制是同行网络，而非排行榜，并且人工投票排行榜比静态基准排行榜更受欢迎。排行榜的影响力在不同子领域之间也存在显著差异，自然语言处理（NLP）研究者比人机交互（HCI）或系统/隐私领域的研究者更感压力，需要与最先进的模型进行比较。大多数研究者认为缺少的一个关键功能是成本透明度。