实体 Ivan Kartáč

Ivan Kartáč

PulseAugur coverage of Ivan Kartáč — every cluster mentioning Ivan Kartáč across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_10104 · Apr 30 · 04:00

研究发现：大型语言模型在对话场景下的推理性能显著下降

arXiv上发表的一项新研究介绍了BOULDER，这是一个旨在评估大型语言模型在面向任务的对话场景下的推理能力的基准。研究发现，与孤立任务相比，模型在对话环境中执行推理任务时性能显著下降。这种下降归因于对话的多轮性、角色设定和工具使用要求，凸显了对更真实的交互式评估的需求。