PulseAugur
实时 05:16:55

新的ToxiREX数据集旨在解决在线对话中隐含的、多语言的毒性问题

研究人员推出ToxiREX,一个旨在捕捉和解释在线对话中隐含的、依赖上下文的毒性问题的新型多语言数据集。该数据集包含Reddit评论串,并使用结构化的毒性推理模式进行标注,涵盖六种语言:英语、阿拉伯语、土耳其语、西班牙语、德语和荷兰语。ToxiREX旨在解决识别高度依赖对话上下文的毒性问题的挑战,而现有分类法未能完全捕捉到这一点。对语言模型的初步实验表明,尽管它们表现优于随机猜测,但该任务仍然很困难,表明在检测细微的毒性推理方面有很大的改进空间。 AI

影响 该数据集可以通过更好地检测细微的、依赖上下文的毒性来改善LLM的安全性。

排序理由 该集群描述了一个用于研究目的的新学术数据集。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的ToxiREX数据集旨在解决在线对话中隐含的、多语言的毒性问题

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Piek Vossen ·

    ToxiREX: A Dataset on Toxic REasoning in ConteXt

    We introduce a new, contextual, multilingual dataset called ToxiREX: Toxic REasoning in ConteXt. The dataset consists of threads of Reddit comments and structured characterizations of what the comments imply, following a systematic toxic reasoning schema developed in a previous p…