研究人员推出了一项新任务 NSNRL,用于评估叙事故事相似度和表示学习。该任务将相似度构建为二元分类问题,判断两个故事中哪一个更接近一个基准故事。对来自 46 个团队的 71 份提交的分析显示,LLM 集成模型在分类赛道上占据主导地位,而在表示学习赛道上,基于嵌入的系统与微调模型的表现相当。 AI
影响 为评估 LLM 在理解和表示叙事结构方面的能力引入了一个新的基准。
排序理由 这是一篇详细介绍用于评估叙事相似度和表示学习的新任务和新数据集的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →