PulseAugur
实时 16:55:08
English(EN) The Trust Paradox: How CS Researchers Engage LLM Leaderboards

计算机科学研究者不信任大型语言模型排行榜但仍在使用它们

一项新研究揭示,计算机科学研究者对大型语言模型(LLM)排行榜持有矛盾的看法。尽管普遍不信任其可靠性和稳健性,研究者们仍将这些排行榜作为非正式的决策参考。选择模型的主要机制是同行网络,而非排行榜,并且人工投票排行榜比静态基准排行榜更受欢迎。排行榜的影响力在不同子领域之间也存在显著差异,自然语言处理(NLP)研究者比人机交互(HCI)或系统/隐私领域的研究者更感压力,需要与最先进的模型进行比较。大多数研究者认为缺少的一个关键功能是成本透明度。 AI

影响 强调了AI评估工具如何影响研究实践,并暗示需要更透明和实用的指标。

排序理由 该集群包含一篇讨论研究方法和发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

计算机科学研究者不信任大型语言模型排行榜但仍在使用它们

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Pouya Sadeghi, Anamaria Crisan, Jimmy Lin ·

    信任悖论:计算机科学研究者如何参与LLM排行榜

    arXiv:2605.28966v1 Announce Type: new Abstract: Large language model (LLM) leaderboards rank AI models using standardized benchmarks and have become highly visible across computer science, despite known limitations in their reliability and robustness. Yet how they shape researche…