研究人员开发了StereoTales,一个旨在识别和评估大型语言模型中社会偏见的新型多语言框架和数据集。该框架分析了来自23个不同大型语言模型的10种语言的超过65万个生成故事,发现了超过1500个有害刻板印象。研究结果表明,所有评估的模型在开放式生成中都表现出显著的有害刻板印象,并且这些偏见会根据提示语言进行调整,反映出特定文化的议题。有趣的是,人类和大型语言模型对这些刻板印象有害性的判断表现出显著的一致性。 AI
影响 识别出大型语言模型中普遍存在的、具有文化适应性的有害刻板印象,突出了模型安全和对齐研究的一个关键领域。
排序理由 该集群描述了一篇新的学术论文,其中详细介绍了一个用于研究大型语言模型偏见的新型数据集和评估流程。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →