English(EN) StereoTales: A Multilingual Framework for Open-Ended Stereotype Discovery in LLMs

新框架StereoTales在23个大型语言模型中发现有害刻板印象

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 12:12

研究人员开发了StereoTales，一个旨在识别和评估大型语言模型中社会偏见的新型多语言框架和数据集。该框架分析了来自23个不同大型语言模型的10种语言的超过65万个生成故事，发现了超过1500个有害刻板印象。研究结果表明，所有评估的模型在开放式生成中都表现出显著的有害刻板印象，并且这些偏见会根据提示语言进行调整，反映出特定文化的议题。有趣的是，人类和大型语言模型对这些刻板印象有害性的判断表现出显著的一致性。 AI

影响识别出大型语言模型中普遍存在的、具有文化适应性的有害刻板印象，突出了模型安全和对齐研究的一个关键领域。

排序理由该集群描述了一篇新的学术论文，其中详细介绍了一个用于研究大型语言模型偏见的新型数据集和评估流程。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Matteo Dora · 2026-05-11 12:12

StereoTales: A Multilingual Framework for Open-Ended Stereotype Discovery in LLMs

Multilingual studies of social bias in open-ended LLM generation remain limited: most existing benchmarks are English-centric, template-based, or restricted to recognizing pre-specified stereotypes. We introduce StereoTales, a multilingual dataset and evaluation pipeline for syst…

报道来源 [1]

StereoTales: A Multilingual Framework for Open-Ended Stereotype Discovery in LLMs

相关实体

相关话题