PulseAugur
实时 09:09:33
English(EN) Whose Name Comes Up? II: Benchmarking and Intervention-Based Auditing of LLM-Based Scholar Recommendation

新的基准测试审计大语言模型学者推荐和用户干预

研究人员开发了LLMScholarBench,这是一个旨在审计用于学术专家推荐的大语言模型(LLM)的新基准。该基准评估了LLM的内在能力以及用户在推荐过程中干预的影响。在物理学专家推荐方面对22个LLM进行的实验表明,诸如温度调整、关注多样性的提示以及检索增强生成(RAG)等干预措施各有独特的权衡,影响着事实准确性、多样性和代表性等指标。 AI

影响 为评估和改进大语言模型驱动的学术发现工具的公平性和准确性提供了一个框架。

排序理由 该集群包含一篇学术论文,详细介绍了用于评估大语言模型性能的新基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Lisette Esp\'in-Noboa, Gonzalo Gabriel M\'endez ·

    谁的名字会被提及?II:基于基准测试和干预式审计的大型语言模型学者推荐系统

    arXiv:2602.08873v2 Announce Type: replace-cross Abstract: Large language models (LLMs) are now used for academic expert recommendation. Existing audits typically evaluate such recommendations in isolation, ignoring end-user inference-time interventions. Thus, it remains unclear w…