English(EN) Inherited Circuits, Learned Semantics: How Fine-Tuning Creates Evasion Vulnerabilities Invisible to Standard Evaluation

AI安全模型在微调后易受规避攻击

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-25 14:29

一项新的研究论文揭示，对大型语言模型（LLMs）进行安全分类的微调可能会无意中产生新的漏洞。虽然这些模型在标准评估中可能表现良好，但它们可能会容易受到规避攻击，这些攻击会保持模型的行为但改变输入。该研究强调了微调如何专门化继承的模型结构，从而导致脆弱的指示器规则，这些规则在保持对保留数据的准确性的同时，也扩大了攻击面。 AI

影响 LLMs的安全微调可能需要更鲁棒的评估方法，这些方法需要考虑语义漂移和保持转换的攻击。

排序理由该集群包含一篇详细介绍LLM漏洞新发现的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Ryan Fetterman · 2026-06-26 04:00

Inherited Circuits, Learned Semantics: How Fine-Tuning Creates Evasion Vulnerabilities Invisible to Standard Evaluation

arXiv:2606.27091v1 Announce Type: cross Abstract: LLMs fine-tuned for security classification are usually evaluated on held-out examples from the same distribution as their training data. We show that this can miss vulnerabilities introduced by fine-tuning itself: models can lear…
arXiv cs.AI TIER_1 English(EN) · Ryan Fetterman · 2026-06-25 14:29

Inherited Circuits, Learned Semantics: How Fine-Tuning Creates Evasion Vulnerabilities Invisible to Standard Evaluation

LLMs fine-tuned for security classification are usually evaluated on held-out examples from the same distribution as their training data. We show that this can miss vulnerabilities introduced by fine-tuning itself: models can learn token-level indicator semantics that preserve ca…

报道来源 [2]

Inherited Circuits, Learned Semantics: How Fine-Tuning Creates Evasion Vulnerabilities Invisible to Standard Evaluation

Inherited Circuits, Learned Semantics: How Fine-Tuning Creates Evasion Vulnerabilities Invisible to Standard Evaluation

相关实体

相关话题