English(EN) Low-Resource Safety Failures Are Action Failures, Not Representation Failures

AI安全对齐在低资源语言中因校准问题而失效

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员发现，在英语等高资源语言上接受安全训练的AI模型，在将这些安全措施应用于斯瓦希里语或缅甸语等低资源语言时遇到困难。尽管模型在跨语言保留有害概念表征的能力，但它们未能将这种理解转化为实际拒绝有害提示。研究表明，这种失败是由于校准的崩溃，而不是表征的缺乏，并提出通过使用最少量的目标语言数据来重新校准现有的安全机制，可以在保持效用的同时显著提高拒绝率。 AI

影响提出了一种更有效的方法来提高低资源语言的AI安全性，可能减少广泛重新训练的需要。

排序理由学术论文，详细介绍了关于AI安全失效的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Rashad Aziz, Ikhlasul Akmal Hanif, Fajri Koto · 2026-06-02 04:00

Low-Resource Safety Failures Are Action Failures, Not Representation Failures

arXiv:2606.01196v1 Announce Type: cross Abstract: Safety alignment learned in high-resource languages transfers poorly to low-resource languages. Models refuse harmful prompts in English but fail to refuse when the same prompts are translated into Swahili or Burmese. Adaptive ste…

报道来源 [1]

Low-Resource Safety Failures Are Action Failures, Not Representation Failures

相关实体

相关话题