English(EN) Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories

AI模型在中途生成时存在安全漏洞

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员发现了一种与AI模型在生成过程中如何处理安全对齐相关的新漏洞。这种“推理时漏洞”意味着，即使是具有初始安全措施的模型，也可以通过在其生成序列的各个点进行短暂干预，被引导产生有害输出。研究表明，目前通常关注初始输出的对齐方法是不够的。为了提高鲁棒性，研究人员建议直接将模型与其生成轨迹对齐，在训练过程中模拟序列中途的扰动。 AI

影响突出了当前AI安全对齐中的一个关键差距，表明需要新的训练方法来实现模型的鲁棒行为。

排序理由学术论文，详细介绍了新的AI安全漏洞和提出的缓解措施。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Kyungmin Park, Taesup Kim · 2026-06-04 04:00

Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories

arXiv:2606.04778v1 Announce Type: new Abstract: Safety-aligned Large Language Models (LLMs) remain vulnerable to interventions during inference that redirect generation toward harmful outputs. Recent work attributes this to shallow safety, where alignment concentrates in the firs…

报道来源 [1]

Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories

相关实体

相关话题