English(EN) Grounded but Misleading: Evaluating Semantic Alignment in AI-Generated Security Explanations

AI 安全解释可能具有误导性，尽管引用了证据

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:00

研究人员开发了一个名为 VEXA 的新测试平台，用于评估 AI 生成的安全解释，特别是针对诈骗检测。研究发现，解释可能看起来基于证据，但语义上削弱或误导了感知风险。即使解释的帮助性较低或提供的理由较弱，它们在感知证据基础方面仍然得分相对较高，这突显了 AI 安全解释中的“基础错觉”效应。 AI

影响强调了在值得信赖的 AI 安全工具方面，需要超越简单证据引用的高级评估指标。

排序理由该集群包含一篇学术论文，详细介绍了 AI 生成的安全解释的新评估方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Heajun An, Connor Ng, Sandesh Sharma Dulal, Junghwan Kim, Jin-Hee Cho · 2026-06-05 04:00

有据但误导：评估 AI 生成的安全解释中的语义对齐

arXiv:2602.05056v2 Announce Type: replace-cross Abstract: Online scams increasingly leverage fluent and context-aware social engineering strategies, creating growing demand for AI systems that explain why a message may be risky. However, explanations that cite detector-derived ev…