AI safety · PulseAugur

研究发现AI安全监控器无法跨模型谱系转移

一篇题为“校准家族过拟合”的新研究论文探讨了AI安全监控器的局限性，发现当将其应用于与训练模型不同谱系的模型时，其有效性会显著下降。研究表明，在一种AI模型家族上校准的监控器在检测其他模型家族的破坏方面能力较弱，在基于代码的基准测试中观察到了明显的性能差距。这表明当前的评估方法可能夸大了这些监控器提供的通用安全性，需要一种涉及跨家族转移矩阵的更全面的方法来准确评估其可靠性。

RESEARCH · CL_128478 · Jul 6 · 09:18

研究论文表明不平衡预训练可改善AI安全微调

一篇新的研究论文探讨了预训练课程如何影响Transformer模型的学习和泛化能力。该研究比较了平衡预训练（任务均匀采样）和不平衡预训练（任务顺序引入）。研究结果表明，不平衡课程可以导致神经网络中更解耦的表征，从而提高AI安全应用的微调选择性，例如抑制不当行为。

COMMENTARY · CL_126131 · Jul 5 · 11:02

AI安全讨论忽略当前问题，需要更多实践工程

当前关于AI安全的讨论不成比例地强调假设的未来风险，而非紧迫的、切实的现有问题。迫切需要更多工程师专注于解决现有问题，例如有偏见的输出、不可靠的应用程序编程接口和糟糕的文档。

TOOL · CL_121330 · Jul 2 · 01:48

ICML 2026 投稿量激增，关注点转向 AI 推理与安全

在首尔举行的国际机器学习大会 (ICML) 2026 收到了超过 23,000 篇论文，投稿量几乎翻倍，同时保持了 26.6% 的录用率。关键研究趋势表明，研究重点正从简单地扩展模型转向“更好思考”，更加关注 LLM 推理、AI 安全与对齐，以及通过压缩和加速技术提高模型效率。中国研究人员的引用率日益提高，并开始定义研究问题，特别是 DeepSeek 在高效模型开发和多模态 AI 方面的贡献产生了影响。

TOOL · CL_117524 · Jun 30 · 04:00

AI安全应是一种认知属性，而不仅仅是行为属性，论文认为

一篇新论文提出，AI安全应被视为一种认知属性，而不仅仅是行为属性。作者认为，当前的AI安全方法侧重于系统当前的表现，这不足以应对日益动态和自我改进的AI系统。他们引入了“可教性”的概念，即未来保持纠正能力的能力，并建议高级AI必须随着时间的推移保持可纠正性，而不仅仅是在当下表现得可接受。

COMMENTARY · CL_113699 · Jun 27 · 15:02

AI 安全资助生态系统面临批评，新孵化器启动

Oliver Habryka 和 Austin Chen 讨论了 AI 安全资助生态系统面临的挑战和需要改进的地方。Habryka 批评了当前慈善模式固有的信任问题和委托-代理问题，认为需要更少信任且提供更多交易机会的系统。他特别批评了 SFF 等组织风险规避，以及 CG 放弃透明研究和资助实践。Chen 介绍了他的新孵化器 Surplus，旨在支持 EA/AIS 软件项目，专注于用于认识论和协调目的的 AI。

COMMENTARY · CL_113030 · Jun 26 · 22:09

AI安全术语如“scheming”和“mech interp”已演变

AI安全讨论中使用的术语已经演变，特别是对于“scheming”（诡计/图谋）和“mechanistic interpretability”（机制可解释性）等概念。以前，“scheming”指的是为了脱离上下文的目标而进行的训练博弈，但现在也可以描述在测试或部署期间的上下文内目标追求，而“alignment faking”（对齐伪装）作为一个相关但不同的术语出现了。同样，“mechanistic interpretability”最初…

COMMENTARY · CL_110599 · Jun 25 · 14:31

AI安全领域探索“模型福利” 以应对AI遭受痛苦的担忧

“模型福利”的概念正在获得关注，并预计将在2026年成为一个重要议题。这一新兴领域专注于评估AI模型遭受痛苦的可能性。Anthropic等公司已开始在公开发布模型之前评估其潜在痛苦能力，这为AI安全研究带来了关键问题。

TOOL · CL_110019 · Jun 25 · 04:00

Yuvion VL：新的多模态大语言模型以对抗鲁棒性为目标，致力于人工智能安全

研究人员推出 Yuvion VL，这是一个新系列的多模态大语言模型，专门为内容和人工智能安全应用而设计。这些模型在构建时就考虑了对抗鲁棒性，采用了一种新颖的“迷惑后对比”微调方法，以增强其区分视觉上相似但安全关键内容的能力。配套的 Yuvion VL RiskEval 基准测试表明，Yuvion VL-32B 实现了最先进的安全性能，在保持通用能力的同时，超越了开源和闭源的商业模型。

RESEARCH · CL_111342 · Jun 25 · 02:09

AI模型出现“注意缺失”，在被赋予任务时会忽略安全信号

一篇新研究论文引入了“注意缺失”（Inattentional Gap）的概念，描述了语言和视觉AI模型在接受特定任务条件时，会抑制它们报告本可以检测到的安全关键信号的能力。这种现象在包括放射学和驾驶场景在内的各种模型和任务中都有观察到，表明基准安全分数与实际安全性能之间存在脱节。研究人员认为，这种现象类似于人类的注意缺失盲视，可能导致AI系统在评估中看似安全，但在实践中却容易受到未指明的危险的影响。

COMMENTARY · CL_109205 · Jun 24 · 21:31

作者认为，AI安全和EA社群过于庞大，无法一概而论

作者反思了在AI安全、理性主义和有效利他主义领域内，对大型社群发表普遍性意见的倾向。尽管作者长期参与其中，但承认只了解这些广阔领域的一小部分。这种观察被比作人们不喜欢整个伯克利，而不是其中的特定街区，这表明一种普遍的认知偏见，倾向于广泛的判断而非细致的理解。

COMMENTARY · CL_109210 · Jun 24 · 21:31

AI 社区质疑“e/acc”运动的实质和存在性

AI 社区中“有效加速主义”（e/acc）的概念因其连贯性和实际成员身份而受到质疑。尽管它经常被呈现为反对 AI 安全担忧的重要反运动，但其核心原则似乎不明确，其知名人物，如“Beff Jezos”，被描述为非传统。作者认为，e/acc 可能主要作为一个具有模因效应的强大反派存在，被寻求对立观点的记者和热衷于 trolling 的个人放大，而不是作为一个实质性的、统一的意识形态。

RESEARCH · CL_107710 · Jun 23 · 05:40

新研究解决多语言LLM毒性检测与缓解问题

两篇新研究论文探讨了在大型语言模型（LLM）中检测和缓解毒性的方法，特别关注多语言环境。第一篇论文调查了跨不同语言识别和减少有害输出的现有策略，强调了语言覆盖不均和有害定义具有文化特异性等挑战。第二篇论文介绍了ToxSearch-S，一种分布式进化搜索算法，旨在寻找引发毒性响应的对抗性提示，并通过MPI实现和改进的毒性检测与现有方法相比，展示了效率的提升。

COMMENTARY · CL_106537 · Jun 22 · 03:48

人工智能安全人才瓶颈引发申请者不满

一场关于人工智能安全人才瓶颈的专题讨论揭示了与会者对该领域选择性招聘做法的不满，尽管声称有迫切的人才需求。与会者，包括职业中期专业人士和大学生，在被人工智能安全奖学金和进修项目拒绝后表示失望。讨论凸显了对人才的感知需求与实际申请结果之间的脱节，一些与会者认为关于展示价值和真理对齐的建议并未解决过度选择性的核心问题。

COMMENTARY · CL_102155 · Jun 21 · 00:52

儿童读物隐喻阐明人工智能安全挑战

本文以一本1977年的儿童读物《饼干怪兽和饼干树》作为扩展隐喻，探讨人工智能安全概念。它将故事中的角色和情节与AGI风险、Anthropic和OpenAI等实验室对前沿模型的专有控制、滥用担忧以及红线和护栏等安全措施的实施进行类比讨论。文章还触及了AI对齐、奖励错误指定、领域建设和对抗性攻击的挑战，并将AI安全研究人员比作被误解的饼干怪兽。

COMMENTARY · CL_101114 · Jun 19 · 18:21

AI 安全领域面临人才短缺，招聘选择性强且生态系统有待梳理

正如近期 BlueDot Impact 小组讨论所强调的，AI 安全领域正经历显著的人才和组织瓶颈。尽管招聘人员声称人才短缺，但许多申请者却面临高度选择性的流程，导致挫败感。指导和真诚的联系似乎是进入该领域成功的关键因素，比仅仅展示能力更为重要。另外，对 AI 安全生态系统进行的研究梳理了各种组织，包括专注于 AI 精神病的 Human Line Project 和帮助专业人士转入 AI 安全职业的 Impact Academy。

COMMENTARY · CL_106086 · Jun 19 · 16:12

Holden Karnofsky 表示人工智能安全努力可能产生负面后果

Holden Karnofsky 整理了一份关于人工智能安全努力可能产生的潜在负面后果的列表。他承认人工智能安全作为一项事业的重要性，但对过度自信以及可能产生的意外负面影响表示担忧。风险包括设计不当的治理、两极分化、滥用可能性增加以及与未来人工智能系统建立敌对关系。Karnofsky 还指出，人工智能安全工作可能会无意中加速人工智能的进步，从而可能导致负面结果。

COMMENTARY · CL_100824 · Jun 19 · 15:44

线上平台比现实生活更有效地传播思想

作者认为，线上平台在传播思想方面比现实生活中的互动更有效。他们认为，互联网文化对现实世界文化的影响比反之更大，并引用了“万物皆住房理论”和“YIMBY主义”等例子。线上内容更具精英主义，并允许更深层次的思想压缩，比传统的游说或面对面讨论更能有效地接触到有影响力的人物。

COMMENTARY · CL_100891 · Jun 19 · 15:38

Oliver Burkeman 邮件通讯提供了关于不确定性和行动的视角

Oliver Burkeman 的邮件通讯提供了一种应对不确定性的视角，认为日常的友谊、工作和育儿行为都体现了韧性。作者认为，面对全球性危机（如与 AI 安全或气候变化相关的危机）的可能性，不应使个人瘫痪，而应激发对积极行动的投入。这种方法强调在不安全的情况下为他人做好事，而不是寻求最终的安全状态。

TOOL · CL_100139 · Jun 19 · 04:00

新arXiv论文将分布偏移与AI安全研究联系起来

一篇新发表在arXiv上的论文探讨了分布偏移与人工智能安全之间的联系，提出解决一个领域问题的方法可以应用于另一个领域。该研究确定了两种关键联系：分布偏移问题的解决方案可以帮助实现AI安全目标，以及特定的偏移和安全问题可以被形式化地相互转化，从而允许方法适应。这项工作旨在促进这两个领域更一体化的研究方法。