Pythia · PulseAugur

研究：位置编码方案塑造 Transformer 注意力头代数

一篇新的研究论文探讨了 Transformer 模型中的位置编码方案如何影响注意力头的谱代数。研究发现，不同的位置编码方案，如旋转位置嵌入（RoPE）、学习绝对位置编码和 ALiBi，会导致注意力头产生不同的谱指纹。这些指纹并非预先设定的约束，而是在训练过程中动态产生的，反映了注意力头的功能作用。研究表明，位置编码方案的选择显著影响模型的学习过程和效率。

RESEARCH · CL_131359 · Jul 7 · 07:34

新方法降低嵌入式GPU上SLM微调的能耗

研究人员开发了一种面向资源受限嵌入式设备的SLM（小型语言模型）微调的能效方法。该研究在GLUE基准测试上对BERT和Pythia变体进行了微调行为的表征，并提出了基于机器学习的模型选择，以优化GPU DVFS设置。在NVIDIA Jetson AGX Orin上的实验表明，与默认的MAXN模式0相比，平均能耗节省了13.11%，节省幅度高达26.73%。

TOOL · CL_117773 · Jun 30 · 04:00

新研究追踪Transformer语言模型中的心理化和情境建模能力

一篇新研究论文探讨了Transformer语言模型（特别是Olmo2和Pythia系列）在情境建模和心理化能力方面的发展。研究发现，在错误信念任务（FBT）上的准确表现取决于模型大小和训练量，并且在预训练过程的后期出现。虽然训练后干预可以提高FBT的准确性，但模型仍然表现出脆弱性，易受非事实动词和其他代理的知识状态的影响。研究表明，更大、训练更充分的模型会发展出部分连贯的情境模型，但其心理化能力仍然容易受到特定语言线索的影响。

RESEARCH · CL_109505 · Jun 24 · 17:27

AI模型在中途训练中会忘记已学规则，研究发现

一项新的研究论文介绍了“自然遗忘”（natural ungrokking）的概念，描述了语言模型如何在预训练期间学习一条规则，却在没有损失曲线变化的情况下随后将其遗忘。研究发现，已学规则的存续取决于它们在训练数据中出现的频率，而非数据与参数的比例。有趣的是，该研究还表明，虽然可以有意地破坏一条已学规则，但恢复它却是一个不对称的过程，即使在支持性数据显著增加的情况下也未观察到恢复。

TOOL · CL_104774 · Jun 20 · 03:12

无键注意力机制将KV缓存减半，提高Transformer效率

研究人员推出了一种新颖的Transformer注意力机制——无键注意力（Keyless Attention），该机制完全消除了键投影，仅基于查询（queries）和值（values）进行操作。与标准注意力相比，这种方法产生了一个仅值缓存（Value-Only Cache），将KV缓存内存和访问开销减半，同时保持或提高了解码吞吐量。该机制还实现了深度注意力因子分解（Depth-m Attention Factorization），实验表…

RESEARCH · CL_96198 · Jun 17 · 04:00

新基准应对大型语言模型的隐私风险

研究人员开发了新的方法来评估针对大型语言模型（LLM）的成员推理攻击（MIA），特别关注音频和文本模态。第一项研究引入了一种系统性的评估方法，用于大型音频语言模型（LALM），使用“多模态盲基线”来控制分布偏移，揭示了记忆是跨模态的，并且与说话人的声音身份有关。第二篇论文CheckMIABench提出了一种基于中间训练检查点和公共数据进行LLM原则性MIA评估的框架，展示了其在Pythia和OLMo模型上的应用，并发布了一个模块化库以…

COMMENTARY · CL_91578 · Jun 9 · 14:30

AI 透明度辩论：“开放权重”不足，需要数据和价值洞察

文章《开放权重，封闭思想：AI 透明度究竟需要什么》认为，仅发布模型权重（一种被称为“开放权重”的做法）不足以实现真正的 AI 透明度。虽然这允许用户在不依赖企业云的情况下本地运行模型，但它模糊了关于训练数据、微调过程和嵌入价值观的关键细节。作者将此与 OLMo 和 Pythia 等真正开放的 AI 项目进行了对比，这些项目提供了对其训练数据和管道的完全可见性，并指出商业压力常常阻碍这种透明度。文章强调，像 Common Crawl …

TOOL · CL_80064 · Jun 9 · 04:00

LLM 函数-向量头分为“写者”和“取消者”

研究人员在大型语言模型的函数-向量（FV）头中识别出两个不同的群体，挑战了这些头是同质群体的假设。通过采用保留符号的标准而非仅基于幅度的排序，他们发现 FV 头要么将正确的 logits 推高（写者），要么将其推低（取消者）。这种双重性质在多个模型家族和规模中都得到了观察，并且零剔除取消者可以提高准确性。

RESEARCH · CL_79130 · Jun 6 · 22:57

新框架预测AI模型引导的副作用

研究人员开发了一个新框架，用于预测使用稀疏自编码器（SAEs）引导语言模型可能产生的副作用。该方法在干预前分析特征统计数据，以预测不一致行为或无关特征扰动等问题。研究评估了该预测能力在包括GPT-2、Pythia、Gemma和Llama在内的多个模型上的表现，结果表明某些统计测量可以预测引导的模块化程度，但成功率因模型和SAE字典而异。

TOOL · CL_79195 · Jun 6 · 04:44

研究发现：大型语言模型的事实知识在后期层中结晶

研究人员在大型语言模型中发现了一种称为“晚期结晶”的现象，事实知识主要出现在最后几层，而不是在所有层中逐渐出现。这一发现在 Pythia、Gemma 和 Llama-3.1 等多个模型系列中均有观察到，表明事实回忆集中在模型的处理后期。该研究还基于这种结晶提出了新的干预原则，并引入了一个区分可计算知识和记忆知识的谱系。

TOOL · CL_72690 · Jun 5 · 04:00

研究：语言模型电路因架构而异

一篇新发表在arXiv上的研究调查了不同语言模型架构如何实现相似的任务功能。研究人员发现，即使在表现相似的情况下，负责任务执行的具体电路在不同的模型家族中也存在显著差异。该研究提出了一个分类法，用于对已识别电路与任务模式之间的关系进行分类，并提出混合专家（MoE）模型可能在基础的位置基底上构建任务电路。

TOOL · CL_72637 · Jun 5 · 04:00

新指标预测语言处理成本超越意外性

研究人员引入了一种名为轨迹外推误差的新指标，以更好地预测人类语言处理成本。该指标分析了 Transformer 语言模型隐藏状态的轨迹，超越了传统的意外性度量。研究结果表明，这一新指标独立预测阅读时间，并且对于复杂的句子结构尤其有效，随着模型规模的增大而增强。

RESEARCH · CL_72528 · Jun 4 · 15:10

AI电路发现方法可能将结构误解为功能

研究人员在AI模型中识别出一种称为“幻影特化”的现象，其中输入统计数据的变异会导致结构不同的电路执行相同的功能。这表明当前发现AI电路的方法可能无法准确反映不同的潜在机制。该研究使用了Pythia模型，发现许多发现的电路实现了相同的计算，这凸显了需要更细致的评估技术（如边缘级别分析）来理解模型行为。

TOOL · CL_68280 · Jun 3 · 04:00

AI基准审计方法在实际条件下失效

一篇新的研究论文强调了当前检测大型语言模型基准污染方法的重大问题。该研究评估了包括前沿行业模型在内的27个模型，发现常见的统计工具在诸如分布偏移和基准与训练数据之间的规模差异等现实条件下会失效。这些工具在超过40%的评估中产生了不正确的结果，表明当前的检测方法对于实际基准审计是不可靠的，并且不能取代透明的数据来源。

TOOL · CL_68279 · Jun 3 · 04:00

语言模型无法通过直接激活注入转移推理状态

研究人员调查了一个语言模型在推理过程中是否可以直接将其内部推理状态转移到另一个模型。虽然一个线性转换层成功地将高相似度 Pythia 模型之间的隐藏状态映射起来，但注入这些转换后的激活并没有提高接收模型的性能。研究发现，低强度加性注入和替换式注入均无效，这表明在这种特定设置下，离线表示对齐本身不足以实现模型之间的因果通信。

TOOL · CL_66071 · Jun 2 · 04:00

新的BLISS方法通过高效的数据选择加速LLM预训练

研究人员开发了BLISS，一种用于更高效地预训练大型语言模型的数据选择新方法。与以前的方法不同，BLISS不需要外部预训练模型，并且通过使用代理模型和评分模型来考虑数据的长期影响。这种双层优化方法允许BLISS预测训练样本的影响得分，从而实现高质量数据的选择。使用Pythia和LLaMA模型进行的实验表明，与最先进的方法相比，BLISS在达到目标性能方面实现了1.7倍的加速。

RESEARCH · CL_62923 · Jun 1 · 04:00

新研究探索用于AI模型的先进压缩技术

研究人员正在探索压缩大型模型和数据集以提高效率的新颖方法。论文讨论了数据集剪枝和蒸馏的统一、图像生成的自举标记化以及用于LLM和VLM的激活感知低秩压缩。其他工作侧重于通用三潜在序列模型、不完美压缩下的预测的理论方面，以及LLM压缩的架构和量化选择的联合优化。

TOOL · CL_61794 · May 31 · 13:11

研究人员发现 AI 模型学习相同的特征，但处于旋转后的基底中

研究人员发现，虽然相同架构的独立训练的 Transformer 模型学习到的特征相似，但它们的内部激活表示会以随机量进行旋转。这种“多态性”意味着在一个模型中识别出的特征在另一个模型中是无法理解的，除非进行校正。将在一个模型上训练的稀疏自编码器 (SAE) 应用于另一个模型会导致灾难性的重建失败，但这可以通过一次矩阵乘法来对齐基底来修复。

RESEARCH · CL_62286 · May 29 · 10:34

语言模型通过兼容的自生成数据得到改进

一篇新的研究论文探讨了语言模型中“潜在能力再现”的概念，表明只有当合成数据与模型现有能力兼容时，才能提高模型的性能。研究发现，合成数据的效用是相关的，模型自身生成文本最有效。有趣的是，这种自训练方法还表明模型能力与逐字记忆脱钩，在没有明确遗忘的情况下显著减少了精确匹配提取。

TOOL · CL_58814 · May 29 · 04:00

New method combats data laundering in LLM training

一篇新研究论文介绍了一种名为合成数据逆转（SDR）的方法，旨在打击大型语言模型（LLM）训练中的数据洗钱行为。数据洗钱涉及转换专有数据以模糊其来源，使权利所有者难以检测未经授权的使用。SDR通过推断未知的洗钱转换并合成模仿洗钱数据的查询来工作，从而增强检测信号。该方法在MIMIR基准测试中得到验证，在增强各种LLM家族和洗钱实践中的数据滥用检测方面显示出了一致的有效性。