研究人员开发了新的指标来评估大型语言模型(LLM)在多项选择题问答(MCQA)任务中个性化生成(PDGs)的不稳定性。他们的发现表明,不稳定性因模型家族、大小和问题领域而异,其中数学和常识性问题表现出更大的不稳定性。研究还发现,任务提示格式对预测不稳定性有显著影响,其影响程度超过了温度等超参数。此外,研究强调了不稳定性与任务准确性之间的关系,表明特定的实验设置可能导致给定任务的最佳和最差表现的个性化生成截然不同。 AI
影响 强调了在LLM应用中仔细调整超参数和选择个性化生成以确保可靠输出的必要性。
排序理由 学术论文,详细介绍了LLM行为的新指标和发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →