研究人员开发了LLMScholarBench,这是一个旨在审计用于学术专家推荐的大语言模型(LLM)的新基准。该基准评估了LLM的内在能力以及用户在推荐过程中干预的影响。在物理学专家推荐方面对22个LLM进行的实验表明,诸如温度调整、关注多样性的提示以及检索增强生成(RAG)等干预措施各有独特的权衡,影响着事实准确性、多样性和代表性等指标。 AI
影响 为评估和改进大语言模型驱动的学术发现工具的公平性和准确性提供了一个框架。
排序理由 该集群包含一篇学术论文,详细介绍了用于评估大语言模型性能的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →