两篇新研究论文指出了当前评估AI生成文本方法的重大问题。一篇论文揭示了NLP会议上普遍存在的人工评估协议报告不足的问题,阻碍了可复现性和清晰度。第二篇论文批评了非自回归模型常用生成式困惑度的方法,认为它可以被“破解”以生成不连贯的文本,同时表现良好。两项研究都呼吁采用更健壮和透明的评估指标及方法。 AI
影响 强调了当前AI文本评估中的关键缺陷,可能导致更可靠的基准和模型开发。
排序理由 两篇学术论文发表在arXiv上,讨论了AI文本评估指标和协议的基本问题。
- Continuous flow-based language models
- Diffusion models
- generative perplexity
- gpt2-large
- LM1B
- non-autoregressive language models
- OpenWebText
- arXiv
- CL conference publications
- long-form text generation
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →