一篇新论文研究了德语方面级情感分析(ABSA)的标注质量,比较了专家、学生、众包工作者和大型语言模型(LLM)。该研究重新标注了一个现有数据集以建立真实情况,并使用标注者间一致性(IAA)评估了标注质量。研究还利用基于BERT、T5和LLaMA的模型评估了这些不同标注来源对ABSA子任务下游模型性能的影响。 AI
影响 为资源匮乏的NLP场景中数据集构建的标注可靠性和效率之间的权衡提供了见解。
排序理由 该集群包含一篇详细介绍NLP任务标注质量比较研究的学术论文。
- Aspect-Based Sentiment Analysis
- Aspect Category Sentiment Analysis
- BERT
- Experts
- German
- Large Language Models
- LLaMA
- Students
- Target Aspect Sentiment Detection
- Inter-Annotator Agreement
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →