研究人员开发了一个新的爱沙尼亚语文档级主观性分析数据集,包含1000篇文本,评分范围从0到100。使用该数据集进行的初步实验显示,人类评分者之间的一致性适中,促使对分歧评分进行了重新标注。一项使用GPT-5进行自动主观性评分的实验表明其可行性,但也突显了与人类标注的差异,暗示基于LLM的评分不能直接替代人类判断。 AI
影响 为评估LLM对爱沙尼亚语主观内容的理解提供了一个新资源。
排序理由 该集群包含一篇学术论文,详细介绍了新数据集的创建和初步实验。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →