研究人员发现,在英语等高资源语言上接受安全训练的AI模型,在将这些安全措施应用于斯瓦希里语或缅甸语等低资源语言时遇到困难。尽管模型在跨语言保留有害概念表征的能力,但它们未能将这种理解转化为实际拒绝有害提示。研究表明,这种失败是由于校准的崩溃,而不是表征的缺乏,并提出通过使用最少量的目标语言数据来重新校准现有的安全机制,可以在保持效用的同时显著提高拒绝率。 AI
影响 提出了一种更有效的方法来提高低资源语言的AI安全性,可能减少广泛重新训练的需要。
排序理由 学术论文,详细介绍了关于AI安全失效的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →