PulseAugur
实时 15:27:05
实体 LLM leaderboards

LLM leaderboards

PulseAugur coverage of LLM leaderboards — every cluster mentioning LLM leaderboards across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_58827 ·

    计算机科学研究者不信任大型语言模型排行榜但仍在使用它们

    一项新研究揭示,计算机科学研究者对大型语言模型(LLM)排行榜持有矛盾的看法。尽管普遍不信任其可靠性和稳健性,研究者们仍将这些排行榜作为非正式的决策参考。选择模型的主要机制是同行网络,而非排行榜,并且人工投票排行榜比静态基准排行榜更受欢迎。排行榜的影响力在不同子领域之间也存在显著差异,自然语言处理(NLP)研究者比人机交互(HCI)或系统/隐私领域的研究者更感压力,需要与最先进的模型进行比较。大多数研究者认为缺少的一个关键功能是成本透明度。