transformers
PulseAugur coverage of transformers — every cluster mentioning transformers across labs, papers, and developer communities, ranked by signal.
- used by KV cache 90%
- used by vLLM 70%
- used by llama.cpp 70%
- used by Ollama 70%
- used by Unsloth 70%
- competes with State space models: Univariate representation of a multivariate model, partial interpolation and periodic convergence 70%
- used by CNNS 70%
- used by AdamW 70%
- competes with State Space Models 70%
- instance of grokking 70%
- used by llama-cpp-python 70%
- used by functional magnetic resonance imaging 70%
- 2026-05-13 research_milestone A paper was published analyzing the impact of data representation and tokenization on Transformer context effectiveness. 来源
26 天有情绪数据
-
Mistral AI发布具有256K上下文的开放权重Medium 3.5模型
Mistral AI发布了Medium 3.5,这是一款新的开放权重模型,拥有1280亿参数和256,000个token的上下文窗口。该模型支持多模态输入和可调的推理能力。Medium 3.5的权重可在HuggingFace上获得,采用修改后的MIT许可证,取代了之前的Mistral Medium 3.1等模型。
-
新的AdaLoc方法确保了可适应的AI模型使用控制
研究人员开发了一种名为AdaLoc的新方法,通过将访问密钥嵌入到模型参数的子集中来增强深度神经网络(DNN)的安全性。这种方法实现了可适应的模型使用控制,这意味着即使在微调或特定任务更新后,也可以在不进行完全重新密钥设置的情况下,将模型的效用恢复到授权状态。在各种基准测试和架构上的实验表明,AdaLoc在为授权用户保持高精度的同时,能够显著降低未经授权访问的性能,使其下降到接近随机猜测的水平。
-
QKVShare框架实现了设备端大模型高效量化KV缓存交接
研究人员开发了QKVShare框架,旨在提高在边缘设备上运行的多智能体大模型系统中智能体之间潜在上下文传输的效率。该方法利用量化KV缓存交接,结合了token级混合精度分配、CacheCard表示以及兼容HuggingFace的注入路径。在GSM8K问题上使用Llama-3.1-8B-Instruct进行的实验表明,自适应量化在重复交接下具有竞争力,并且与完全重新预填充相比,显著降低了交接延迟。
-
Transformer 任务推理模式与任务向量几何学相关联
研究人员探索了 Transformer 的内部工作机制,在中间层表示中识别出影响模型行为的“任务向量”。他们的研究在一个受控的合成环境中进行,揭示了这些任务向量的几何形状如何与训练分布和泛化能力相关。研究结果表明,Transformer 可以通过任务向量的凸组合同时识别已知任务,并通过在正交子空间中进行外推学习来适应新任务。
-
拓扑研究揭示神经网络的 grokking 信号和架构绕过方法
研究人员正在探索神经网络中的“grokking”现象,即模型在开始泛化之前会先记住数据。一项研究提出修改架构拓扑,例如强制执行球形约束或使用均匀注意力,以绕过记忆阶段并加速泛化。另一篇论文利用持久同调来识别一个独特的拓扑信号——同调性的急剧增加——标志着向泛化过渡,为分析表示学习提供了一个新框架。
-
Transformer精确重构共形场理论组成
研究人员开发了一种使用Transformer重构二维有理共形场理论(RCFT)张量积组成的方法。这项组合上具有挑战性的任务涉及根据低能谱识别组成理论。基于Transformer的方法在从Wess-Zumino-Witten模型中恢复组成部分时达到了98%的准确率,并且通过极少的域外样本就泛化到了更大的中心荷和未见的RCFT类别。这项工作表明Transformer可以作为AdS/CFT中体态重构的宝贵工具。
-
研究人员提出高斯核注意力作为标准Transformer注意力的无投影替代方案。
研究人员引入了高斯核注意力(GKA),这是一种旨在取代Transformer中标准点积注意力的创新机制。GKA利用高斯径向基函数核直接计算token亲和度,无需学习线性投影。这种方法可以被解释为归一化核回归,将Transformer与经典滤波方法联系起来。在语言建模中的评估表明,GKA模型在参数更少、训练计算量更少的情况下,取得了与标准注意力基线相当的性能。
-
新框架增强了具有时空感知的AI模拟
研究人员开发了一个新框架,以增强用于物理模拟的机器学习模型,特别解决了当前训练范式中的局限性。他们的方法引入了用于空间一致性的多节点预测、用于稳定性的使用交叉注意力的时域校正机制,以及用于捕捉旋转对称性的具有旋转位置嵌入的几何归纳偏置。这些创新在多种架构和数据集上进行了评估,显示出在准确性和稳定性方面的一致改进,尤其是在长期预测方面。
-
Singular Bayesian Neural Networks
研究人员推出了一种名为Singular Bayesian Neural Networks的新方法,该方法显著减少了贝叶斯神经网络所需的参数数量。通过使用低秩分解来参数化权重,这些网络将其后验集中在秩流形上,与标准的均值场方法相比,能够更有效地进行相关性建模。该技术提供了改进的泛化界限和具有竞争力的预测性能,实证结果显示参数数量减少高达33倍,并且增强了分布外检测能力。
-
ViM-Q 赋能FPGA上高效的Vision Mamba模型推理
研究人员开发了ViM-Q,一种专为加速FPGA上Vision Mamba (ViM) 模型推理而设计的新型算法-硬件协同设计。该方法解决了量化动态激活离群值和为FPGA架构适配SSM计算的挑战。ViM-Q集成了定制的4位权重量化和一个包含线性引擎和流水线SSM引擎的硬件加速器,能够为多样化的ViM模型进行运行时配置。在AMD ZCU102 FPGA上的测试表明,与GPU基线相比,在低批量推理方面实现了显著的速度提升和能效增益。
-
Gemma 4 QAT models spark debate over performance and utility
Users are discussing the performance and utility of Gemma 4 QAT (Quantization Aware Training) models, particularly comparing them to standard quantizations. While some users report improved speed and quality for general…
-
Transformer 准确预测材料科学中的原子尺度转变
研究人员开发了一种新颖的 Transformer 模型应用,用于预测材料中的原子尺度转变。这一过程对于材料科学至关重要,但传统方法计算量巨大。这种机器学习方法有望显著降低寻找这些转变的计算成本。该研究展示了 Transformer 在预测纳米团簇中这些转变方面的有效性,并探索了验证预测的物理准确性以及生成多样化微态的方法。
-
选择性更新RNN在效率上匹配Transformer的准确性
研究人员开发了一种新型循环神经网络(RNN),称为选择性更新RNN(suRNNs),它可以高效地处理长序列建模。与在每个时间步都进行更新的传统RNN不同,suRNNs在神经元层面使用二进制开关来学习何时保留记忆,将更新与序列长度解耦。这使得它们能够在冗余区间内保持精确的过去信息,从而在Long Range Arena等基准测试中以更高的效率实现Transformer级别的准确性。
-
Hugging Face 自动合并 AI 代理 PR,在噪音中寻找信号
Hugging Face 的研究人员观察到,像 transformers 这样的开源项目收到的 AI 代理生成的拉取请求 (PR) 数量显著增加,在上个季度翻了两番。一项实验涉及将数百个此类代理 PR 大规模合并到一个项目分支中,结果显示在多个基准测试中没有出现性能回归。这表明,尽管单个代理贡献的质量可能参差不齐,但大量代理标记相同问题的集体信号可以识别出代码库中的潜在问题。
-
神经程序合成模型在泛化到训练数据之外时遇到困难
研究人员开发了一个受控环境,以严格测试神经程序合成模型的泛化能力。他们的实验表明,虽然 Transformer 模型在已知数据上表现良好,但在生成新颖程序方面却面临显著困难,性能下降超过 30%。研究表明,增加计算能力的回报递减,遵循对数线性关系,并表明最大化跨各种流形(manifolds)的训练多样性对于稳健的泛化至关重要。研究结果强调了需要新的基于搜索的方法来克服当前的扩展限制。
-
Stateful Transformers 提升流式推理性能;Intel 发布 AutoRound 量化工具包
一篇新论文介绍了一种有状态的 Transformer 推理引擎,通过维护持久的 KV 缓存,显著加快了流式数据的处理速度。这种方法实现了与累积上下文大小无关的查询延迟,在市场数据基准测试中比现有引擎快了 5.9 倍。此外,Intel 发布了 AutoRound,一个用于 LLM 和 VLM 的先进量化工具包,可在超低比特宽度(2-4 位)下实现高精度和广泛的硬件兼容性,并与 vLLM 和 Transformers 等流行框架集成。
-
OpenAI 发布开源 Privacy Filter 用于本地 PII 审查
OpenAI 发布了一个名为 Privacy Filter 2026 的开源工具,这是一个拥有 15 亿参数的模型,旨在直接在用户的浏览器中检测和删除个人身份信息(PII)。这种方法允许组织在不将敏感数据传输到外部服务器的情况下匿名化文本,从而增强数据隐私。另外,Meta FAIR 推出了 NeuralSet,一个将各种神经科学数据模式与 AI 模型集成的 Python 包,促进了跨领域研究。
-
Meta FAIR 发布 NeuralSet,连接神经科学数据和人工智能模型
Meta 的基础人工智能研究 (FAIR) 团队推出了 NeuralSet,一个旨在整合神经科学数据与人工智能模型的新 Python 包。该工具能够处理各种神经影像和电生理数据类型,包括 fMRI、M/EEG 和尖峰记录。NeuralSet 还支持来自 HuggingFace 的嵌入,为神经-AI 研究提供更全面的方法。
-
腾讯发布紧凑型移动设备离线翻译模型
腾讯混元团队发布了Hy-MT1.5-1.8B-1.25bit,一个为移动设备设计的开源离线翻译模型。该模型经过高度量化,体积仅为440MB,支持33种语言,翻译质量优于Google Translate。该模型完全在用户手机本地运行,确保隐私并无需互联网连接。它已被集成到腾讯的各种产品中,并在国际机器翻译竞赛中获得顶级排名。
-
Numind发布NuExtract3以实现文档理解
Numind发布了NuExtract3,这是一个拥有40亿参数的视觉语言模型,专为文档理解而设计。该模型在结构化信息提取和将图像转换为Markdown方面表现出色,使其在OCR、RAG预处理和处理各种文档类型方面非常有用。NuExtract3支持多模态输入、多语言文档,并提供推理和非推理两种推理模式,同时已有多种量化格式可用。