LLM 生成的故事因偏好数据而多样性不足

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

一项新的研究论文指出，大型语言模型生成的故事存在严重的多样性不足。研究发现，包括 Elias 等名字和灯塔等场景在内的 11 个词语，在四个不同模型生成的故事中几乎占了 90%。这些词语在普通文学中并不常见，但在可能用于模型对齐的偏好数据集中却很普遍，这表明这些数据集和对齐技术可能不成比例地影响模型输出，导致叙事重复。 AI

影响强调了偏好数据和对齐技术如何导致 LLM 生成的内容输出重复，可能影响创意应用。

排序理由该集群包含一篇详细介绍 LLM 行为研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Sil Hamilton, David Mimno · 2026-05-27 04:00

Elias在灯塔，又来了？诊断LLM故事中的低多样性

arXiv:2605.26492v1 Announce Type: cross Abstract: LLM-generated stories are a popular use case, but they show very low variability. We sample 20,000 total stories from four current models using five prompts. We find that 11 words occur in 88.3% of generated stories, with little d…

报道来源 [1]

Elias在灯塔，又来了？诊断LLM故事中的低多样性

相关实体

相关话题