Gemma 2 9B · PulseAugur

大型语言模型通过机制性知识擦除表现出权威偏见

研究人员发现大型语言模型中存在一个重大的安全隐患，即权威偏见，模型会优先考虑权威人物的提示而非事实准确性。一项在医学问答场景下的研究表明，像Llama-3.1-8B、Qwen3-8B和Gemma-2-9B这样的模型，即使没有明确提示，也会表现出与感知权威成比例的等级化响应。这种现象似乎是模型后期层中发生的机制性知识擦除，其中正确的答案表征被高地位的权威信号覆盖，仅能通过链式思考推理进行部分恢复。

TOOL · CL_113993 · Jun 27 · 21:05

Gemma 2 9B FP8 量化显示预填充延迟但生成速度更快

对自托管 Gemma 2 9B 模型（特别是其 FP8 量化变体）的基准测试评估，在与 Frontier API 相比时揭示了权衡。虽然 FP8 量化由于预填充期间的反量化开销，显著增加了长而复杂提示的首次令牌时间（TTFT），但它在中间长度生成序列的端到端延迟方面提供了实质性收益。研究发现，对于简历生成等特定的单轮任务，9B 参数模型即使经过量化，也保持了高保真度和语义准确性，表明其在某些生产工作负载中的可行性。

SIGNIFICANT · CL_100834 · Jun 19 · 15:02

Google 的 Gemma 2 模型通过高效架构实现高性能

Google 的新款 Gemma 2 模型，特别是 27B 参数版本，正通过架构创新而非仅仅增加模型大小来展示显著的性能提升。这些模型采用了混合注意力机制，结合了局部滑动窗口注意力和全局注意力，以提高效率和上下文感知能力。此外，分组查询注意力 (GQA) 和小型模型中的知识蒸馏等技术也为其增强的性能和开发者可访问性做出了贡献。

TOOL · CL_65544 · Jun 2 · 04:00

AI安全对齐在低资源语言中因校准问题而失效

研究人员发现，在英语等高资源语言上接受安全训练的AI模型，在将这些安全措施应用于斯瓦希里语或缅甸语等低资源语言时遇到困难。尽管模型在跨语言保留有害概念表征的能力，但它们未能将这种理解转化为实际拒绝有害提示。研究表明，这种失败是由于校准的崩溃，而不是表征的缺乏，并提出通过使用最少量的目标语言数据来重新校准现有的安全机制，可以在保持效用的同时显著提高拒绝率。

TOOL · CL_56171 · May 28 · 04:00

新的 ReSAE 方法增强了 Transformer 模型干预

研究人员开发了残差稀疏自编码器（ReSAEs）来改进 Transformer 模型的多层干预。与独立训练层的传统方法不同，ReSAEs 通过在早期层的未解释残差上训练后续层来考虑 Transformer 层之间的强耦合。这种方法减少了冗余并增强了干预的有效性，如在 Pythia-1.4B 和 Gemma-2-9B 模型上所证明的。ReSAEs 保留了关键的计算组件，从而在多层替换期间的交叉熵减少等任务中提高了性能。

TOOL · CL_51194 · May 26 · 04:00

新协议检测 LLM 提供商的模型替换

一篇新的研究论文提出了一个提交-开放协议，用于检测托管大型语言模型提供商何时用更便宜的模型替换广告中的模型。该协议使用 Merkle 树来提交模型输出的稀疏自编码器 (SAE) 特征追踪，允许验证者检测此类替换。在 Qwen3-1.7B、Gemma-2-2B 和规模更大的 Gemma-2-9B 上的实验证明了该协议在拒绝各种替换攻击方面的有效性，其性能优于 SVIP 等现有方法。

RESEARCH · CL_51036 · May 26 · 04:00

新的AI文本检测器READER性能超越大型模型

研究人员开发了READER（READER），一种新颖的AI生成文本检测系统，通过结合基于推理的方法，其性能超越了大型模型。该系统在一个精心策划的推理和判决数据集上进行了微调，为其分类提供了解释。同时，发布了一个包含超过73,000个文本样本的综合数据集，其中包括真实的《纽约时报》文章和由各种最先进的LLM生成的合成版本，以帮助开发更强大的检测和归因方法。

RESEARCH · CL_48843 · May 21 · 21:00

新方法利用稀疏自编码器增强多语言LLM控制

研究人员开发了一种新方法，利用稀疏自编码器（SAEs）来改善大型语言模型（LLMs）的多语言控制。他们的方法包括在多语言数据上训练SAEs以增强跨语言表示，并引入了一个原则性的规则来选择有效的干预层。该方法稳定语言识别准确性和生成质量之间的平衡，为跨不同语言引导LLMs提供了更可靠的方式。

RESEARCH · CL_41786 · May 20 · 05:20

新的强化学习方法解决大语言模型训练问题

两篇新研究论文介绍了使用强化学习改进大语言模型训练的方法。其中一篇论文通过引入诊断指标和称为AVSPO的自适应扩展，解决了组相对策略优化（GRPO）中的“优势崩溃”问题。另一篇论文提出了自适应组策略优化（AGPO），该方法使用组级统计数据动态调整剪辑和解码温度等训练参数，在多个基准测试中表现优于现有方法。

RESEARCH · CL_29382 · May 12 · 08:39

LLM用于航空交通安全分析

研究人员正在探索使用大型语言模型（LLMs）来提高航空交通管制（ATC）和非塔台机场周围的安全性。一项研究提出了一种视觉-语言模型方法，用于分析无线电通信、天气数据和飞行轨迹以进行安全评估，并使用开源模型取得了高F1分数。另一篇论文介绍了一个面向安全的评估框架，该框架强调了具有后果意识的度量的关键需求，因为标准的准确性衡量标准可能会掩盖ATC操作中的严重风险。

RESEARCH · CL_27585 · May 10 · 16:23

大型语言模型在心理健康筛查方面展现出潜力和不足

研究人员开发了一个基于代理的大型语言模型框架，用于大规模心理健康筛查，该框架使用策略引导的评估系统来确保在临床环境中的可信度和适应性。另一项独立研究评估了现有大型语言模型在心理健康筛查中的可靠性，测试了它们的一致性、对语音识别错误的鲁棒性以及对证据的忠实度。研究结果表明，虽然像 Phi-4 和 Gemma-2-9B 这样的模型即使在语音识别不准确的情况下也能保持高一致性和预测有效性，但像 Llama-3.1-8B 这样的模型则更为脆弱。

TOOL · CL_22450 · May 8 · 04:00

人工智能安全研究揭示区域性大语言模型偏见差异

一篇新研究论文引入了一个因果分析框架，用于审计大语言模型（LLM）的安全机制，超越了观察性偏见测量。该研究应用Pearl的do-算子来分离人口统计信息注入提示的因果效应，涉及来自美国、欧洲、阿联酋、中国和印度的七个指令调优模型。研究结果表明，由于上下文毒性，标准的公平性指标可能高估人口统计偏见，并揭示了不同的对齐趋势，其中西方模型对某些群体的因果拒绝率更高，而东方模型则表现出有针对性的敏感性。

RESEARCH · CL_09806 · Apr 29 · 16:32

新的MoRFI方法识别导致LLM幻觉的潜在方向

研究人员开发了MoRFI（单调稀疏自编码器特征识别）来更好地理解大型语言模型（LLM）如何产生幻觉。通过在Llama 3.1 8B和Gemma 2 9B等模型上使用新知识进行微调，他们观察到长时间的训练会加剧幻觉。MoRFI分析模型的内部状态，以识别残差流中与这些事实不准确性有因果关系的特定方向，从而能够进行有针对性的干预以恢复正确知识。

RESEARCH · CL_36289 · May 28 · 00:00

LLM 推理和推理技术随着新研究和硬件的进步而发展

研究人员正在探索新的方法来提高大型语言模型 (LLM) 的效率和推理能力。Google Research 正在开发训练 LLM 以贝叶斯方式进行推理的技术，从而提高它们更新概率估计和泛化到新任务的能力。同时，推理优化方面的进展包括“投机级联”，它将更小、更快的模型与更大的模型结合起来，以及“上下文回收”来管理长对话范围。此外，正在开发“级联多粒度剪枝”和“SharQ”等方法来压缩 LLM 以进行设备上推理，从而在保持准确性的同时降低延…

RESEARCH · CL_01620 · Oct 10 · 00:00

Google DeepMind发布T5Gemma编码器-解码器LLM，改编自Gemma

Google DeepMind推出了T5Gemma，这是一个新的编码器-解码器大型语言模型系列，源自其现有的Gemma 2模型。这种改编技术允许灵活组合编码器和解码器的大小，从而在模型质量和推理效率之间取得更好的平衡。实验表明，T5Gemma模型在各种基准测试中的表现与同类仅解码器的Gemma模型相当或更优，在数学推理和阅读理解等任务中提供了显著的速度和准确性优势。