一项新研究揭示,计算机科学研究者对大型语言模型(LLM)排行榜持有矛盾的看法。尽管普遍不信任其可靠性和稳健性,研究者们仍将这些排行榜作为非正式的决策参考。选择模型的主要机制是同行网络,而非排行榜,并且人工投票排行榜比静态基准排行榜更受欢迎。排行榜的影响力在不同子领域之间也存在显著差异,自然语言处理(NLP)研究者比人机交互(HCI)或系统/隐私领域的研究者更感压力,需要与最先进的模型进行比较。大多数研究者认为缺少的一个关键功能是成本透明度。 AI
影响 强调了AI评估工具如何影响研究实践,并暗示需要更透明和实用的指标。
排序理由 该集群包含一篇讨论研究方法和发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- computer science
- HCI
- Large Language Model
- LLM leaderboards
- NLP researchers
- Systems/Privacy researchers
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →