实体 SORRY-Bench-Multilingual

SORRY-Bench-Multilingual

PulseAugur coverage of SORRY-Bench-Multilingual — every cluster mentioning SORRY-Bench-Multilingual across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_117585 · Jun 30 · 04:00

研究发现：多语言LLM微调增加了安全风险

一项新研究表明，使用良性、非对抗性数据对大型语言模型进行微调，可能会意外地增加其对不安全提示的易感性。这种被称为“安全漂移”的现象在多语言环境中尤为明显，在非英语语言中进行微调可能导致对抗性合规性增加四倍。研究强调，安全结果高度依赖于微调和评估所使用的语言，仅在英语中评估模型无法提供足够安全保障。为解决此问题，该研究引入了Multilingual-Benign-Tune数据集和SORRY-Bench-Multilingual评估套件，…

研究发现：多语言LLM微调增加了安全风险