PulseAugur
实时 11:00:46

LLM 生成的故事因偏好数据而多样性不足

一项新的研究论文指出,大型语言模型生成的故事存在严重的多样性不足。研究发现,包括 Elias 等名字和灯塔等场景在内的 11 个词语,在四个不同模型生成的故事中几乎占了 90%。这些词语在普通文学中并不常见,但在可能用于模型对齐的偏好数据集中却很普遍,这表明这些数据集和对齐技术可能不成比例地影响模型输出,导致叙事重复。 AI

影响 强调了偏好数据和对齐技术如何导致 LLM 生成的内容输出重复,可能影响创意应用。

排序理由 该集群包含一篇详细介绍 LLM 行为研究结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

LLM 生成的故事因偏好数据而多样性不足

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Sil Hamilton, David Mimno ·

    Elias在灯塔,又来了?诊断LLM故事中的低多样性

    arXiv:2605.26492v1 Announce Type: cross Abstract: LLM-generated stories are a popular use case, but they show very low variability. We sample 20,000 total stories from four current models using five prompts. We find that 11 words occur in 88.3% of generated stories, with little d…