研究人员开发了一个新的框架,用于在无需人工标注的情况下生成合成对话数据。在快速发展的工业环境中,人工标注通常稀缺。该方法使用意图定义并结合主题和风格属性来增强数据多样性,采用两种新颖的风格化模型 Univ 和 Exam 来创建更具人类语言风格的数据。LLM-as-a-judge(大语言模型作为裁判)过滤过程进一步提高了数据质量,达到了人工标注数据高达 93.3% 的性能。研究强调,风格多样性比主题多样性对合成数据效用更重要,并且在生成过程中整合风格属性比事后调整更有效。 AI
影响 这项研究可以显著降低意图分类模型训练数据的创建成本和时间,从而可能加速数据稀缺环境下的 AI 开发。
排序理由 该集群包含一篇详细介绍新的合成数据生成方法的学术论文。
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Exam
- Gotit.pub
- Hugging Face
- IArxiv
- ScienceCast
- University of Oxford
- Zahra Abbasiantaeb
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →