一项发表在arXiv上的新研究调查了大型语言模型(LLMs)如何处理条件句中的预设和推理,并将其表现与人类判断进行比较。研究人员开发了一个规范化数据集并进行了一项并行行为研究,发现人类会整合概率和语用线索,而大型语言模型则表现出可变的匹配度。研究还揭示了一个权衡:最能匹配人类评分的模型往往缺乏连贯的语用推理,而推理能力更强的模型则产生了不太像人类的判断,这表明大型语言模型可能依赖于表面模式匹配而非真正的语用能力。 AI
影响 强调了大型语言模型语用能力方面的潜在局限性,表明当前模型可能未能完全掌握细致的语言理解。
排序理由 发表在arXiv上的学术论文,详细介绍了一项比较人类和大型语言模型在语言任务上表现的研究。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →