transformers
PulseAugur coverage of transformers — every cluster mentioning transformers across labs, papers, and developer communities, ranked by signal.
- used by KV cache 90%
- used by vLLM 70%
- used by llama.cpp 70%
- used by Ollama 70%
- used by Unsloth 70%
- competes with State space models: Univariate representation of a multivariate model, partial interpolation and periodic convergence 70%
- used by CNNS 70%
- used by AdamW 70%
- competes with State Space Models 70%
- instance of grokking 70%
- used by llama-cpp-python 70%
- used by functional magnetic resonance imaging 70%
- 2026-05-13 research_milestone A paper was published analyzing the impact of data representation and tokenization on Transformer context effectiveness. 来源
26 天有情绪数据
-
新的MoE框架加速时间序列预测训练
研究人员开发了一个新的混合专家(MoE)框架,旨在加速时间序列预测模型的训练。该方法将特定专家的损失信息直接整合到训练过程中,使个体专家的预测误差能够与全局预测损失一起塑造学习过程。该框架还采用部分在线学习策略,无需完全重新训练即可高效更新门控和专家参数,在各种数据集上展示了优于现有统计模型和神经网络模型的准确性和计算效率。
-
MTA-RL框架通过多模态AI增强城市驾驶
研究人员开发了MTA-RL,一个新颖的框架,它集成了多模态Transformer-based 3D可供性与强化学习,以实现鲁棒的城市自动驾驶。该方法融合了RGB图像和LiDAR数据,以预测明确的、几何感知的可供性,为强化学习策略创建了一个结构化的观测空间。在CARLA模拟器中的评估表明,与现有基线相比,MTA-RL在样本效率、稳定性和零样本泛化方面表现更优。
-
键值均值注意力机制提供 O(N) Transformer 性能
研究人员推出了一种新的 Transformer 注意力机制——键值均值(KVM),它可以处理固定大小和不断增长的状态。当使用固定大小的缓存实现时,KVM 充当一个 O(N) 的分块 RNN,参数增加极少。可增长的 KVM 缓存版本在长上下文任务上表现出竞争力,提供亚二次预填充时间和亚线性状态增长。该方法与标准操作兼容,支持分块并行训练,并在预填充时间复杂度和内存使用之间提供灵活的权衡。
-
Qwen 3.5 在切换到 llama.cpp 后引领本地 LLM 基准测试
一篇技术博文详细介绍了从使用 Ollama 转为使用 llama.cpp 在本地运行大型语言模型的转变过程。作者发现,Ollama 虽然用户友好,但引入了一个可能导致基准测试结果偏差的抽象层。通过迁移到 llama.cpp,作者获得了对推理参数更精细的控制,从而能够进行更准确的基准测试和优化。这一改变使得 Qwen 3.5 在编码和智能体任务中成为表现最佳的模型。
-
新的ES-VAE模型改进了骨骼姿态轨迹分析
研究人员开发了一种弹性形状变分自编码器(ES-VAE),旨在更有效地建模骨骼姿态轨迹。该新模型使用一种感知几何的表示方法来分离内在形状动力学和运动,消除了相机视角和执行速度等干扰因素。在从步态周期预测临床活动能力评分和动作识别任务等应用中,ES-VAE已证明其性能优于标准的VAE和其他序列建模基线。
-
开发者将Gemma 4 E4B微调为30美元的偏见裁判
一位开发者花费约30美元,将Google的Gemma 4 E4B模型微调成一个偏见裁判。整个过程耗时两周,大部分精力花在了数据管道构建上,而非GPU时间。该模型能够本地运行,并在30秒内评估响应对,使用偏见问答基准(BBQ)数据集来识别社会偏见。开发者遇到了分类泄露、BBQ数据集施加的数据上限以及用于标注的不同LLM之间的分歧等挑战,最终导致了一种精炼的数据构建策略。
-
DeepSeek发布开源编码模型,性能媲美GPT-4o
DeepSeek发布了V3-0324,一个开源编码模型,在编码性能上可媲美甚至超越GPT-4o和Claude 3.5 Sonnet等领先模型。该模型采用混合专家(Mixture-of-Experts)架构,拥有6710亿总参数和370亿激活参数,可显著节省推理成本。该模型支持128K token上下文窗口,并通过兼容OpenAI的API提供,便于开发者集成。
-
论文分析 Sink 模式用于注意力切换和过平滑
本文研究了 Transformer 注意力机制中“Sink”和对角线模式的功能。研究人员分析了 Sink 存在的几何条件,并证明了它们等同于硬注意力切换。该研究还加深了对 Sink 如何防止过平滑的理解,表明在特定条件下,密集注意力可以比稀疏注意力更平滑。最后,它比较了表示 Sink 与对角线模式的成本,解释了为什么在预训练的 Transformer 中更倾向于使用 Sink。
-
本地AI模型因设置复杂和缺乏完善而落后于托管API
Armin Ronacher 认为,尽管在本地运行AI模型方面取得了重大进展,但开发人员(尤其是编码代理)的用户体验仍然非常复杂。他强调了仅仅让模型可运行与让模型感觉完善和成品之间的差距,并以工具参数流式传输为例,说明了一个缺失的功能。Ronacher 指出,本地AI堆栈的碎片化性质,拥有众多的引擎和层,导致模型行为不一致和整体体验不佳。
-
新理论解释了Transformer在训练过程中如何逃避Token聚类
研究人员开发了一种新的均场理论来理解Transformer在训练过程中的动力学。该理论分析了注意力机制如何导致Token分布聚集。研究揭示了一个训练诱导的阶段,在该阶段Token分布可以在后续层中逃避这种聚集,这表明需要一种结合训练和推理动力学分析的方法。
-
新的SWAP-Score指标可在无需训练的情况下评估神经网络
研究人员推出了一种新颖的零样本指标SWAP-Score,该指标无需训练即可评估神经网络。该方法使用样本激活模式来衡量网络的表达能力,并在包括CNN和Transformer在内的各种架构中表现出强大的预测性能。SWAP-Score在计算机视觉和自然语言处理任务中显著优于现有指标,与真实性能高度相关,并能实现更快的神经架构搜索。
-
新界限通过谱分析解释 Transformer 的泛化能力
研究人员为深度 Transformer 开发了新的谱自适应泛化界限,为其提供了强大的性能理论解释。这些界限根据学习到的奇异值剖面自适应地调整复杂度,与传统的基于范数的方法相比,显示出在深度和维度上的增长较慢。这些发现为训练好的 Transformer 的谱结构如何促进其泛化能力提供了新的视角。
-
MUSE框架通过拓扑正交性解决视觉分词的权衡问题
研究人员引入了MUSE,一个旨在解决视觉分词中流形不对齐问题的新型框架。该方法利用拓扑正交性来解耦Transformer内的优化,允许结构梯度优化注意力拓扑,语义梯度更新特征值。实验表明,MUSE能有效打破重建保真度和语义抽象之间的权衡,实现最先进的生成质量并提高线性探测性能。
-
逻辑理论解释 Transformer 抽象符号分类
研究人员开发了一种逻辑理论,用于理解 Transformer 如何对新鲜符号进行分类,重点关注它们进行抽象推理的能力,而不是依赖于具体的 token 名称。该研究在 Transformer-kernel 框架内分析了正则化核逻辑分类。一项关键发现将预测因子分解为理想的模板级分类器和由训练数据中意外的 token 重叠引起的扰动,这对泛化策略具有启示意义。
-
2026年七款小型编码AI模型提供本地开发能力
文章重点介绍了七款适合本地开发的小型编码AI模型,强调了它们的效率和隐私优势。这些模型,包括OpenAI的gpt-oss-20b和Microsoft的Phi-3.5-mini-instruct,专为在消费级硬件上运行而设计,并在编码任务中可与大型闭源模型相媲美。该列表还包括了具有视觉能力的Qwen3-VL-32B-Instruct,具有推理能力的Apriel-1.5-15b-Thinker,以及性能出色的ByteDance的Seed-…
-
Meta AI 推出 NeuralBench 以标准化脑信号 AI 模型评估
Meta AI 推出了 NeuralBench,一个旨在标准化分析脑信号的 AI 模型评估的开源框架。初始版本 NeuralBench-EEG v1.0 是此类最广泛的基准测试,涵盖 36 个任务、94 个数据集,并评估了 14 种深度学习架构。该计划旨在通过提供一个统一的平台来比较模型在各种神经科学应用中的性能,从而解决 NeuroAI 研究的碎片化问题。
-
MambaBack架构通过混合AI方法增强全切片图像分析
研究人员推出了一种新颖的混合架构MambaBack,旨在改进计算病理学中的全切片图像(WSI)分析。该新模型结合了Mamba和MambaOut的优势,以更好地捕捉局部细胞结构和全局上下文信息,这对于癌症诊断至关重要。MambaBack解决了在推理过程中保持2D空间局部性、优化局部特征提取和减少内存使用等挑战,在多个数据集上表现优于七种现有最先进的方法。
-
RLVR训练动态揭示了推理模型中的隐式课程
研究人员开发了一种理论,解释了可验证奖励强化学习(RLVR)如何帮助大型推理模型克服长时域挑战。他们的分析表明,RLVR训练自然遵循一个隐式课程,即先掌握较容易的问题,然后为更难的问题铺平道路。这种学习进程受到问题难度谱平滑度的影响,平滑过渡会导致稳定的“接力模式”,而突然的不连续会导致类似“grokking”的相变。该研究还引入了从有限群上的傅里叶分析改编的新技术来支持其理论框架。
-
Layerwise LQR 框架使用几何感知控制优化深度网络
研究人员开发了 Layerwise LQR (LLQR),一个用于深度学习模型的新优化框架。LLQR 将二阶优化方法(如牛顿法)重新表述为线性二次调节器问题。这种方法可以学习结构化的逆预处理器,在不计算完整曲率矩阵的情况下捕获全局层级动态。在 ResNets 和 Transformers 上的实验表明,LLQR 可以在计算开销极小的情况下提高优化速度和最终模型性能。
-
新论文证明AI模型面临“不可能性三角”权衡
研究人员发现长上下文模型中存在根本性的权衡,证明没有单一架构能够同时实现效率、紧凑性和召回率。该研究使用在线序列处理器(Online Sequence Processor)抽象形式化了这一“不可能性三角”,该抽象统一了各种现有模型,如Transformers和状态空间模型。数学不等式表明,优先考虑效率和紧凑性的模型在回忆历史信息的能力方面受到限制,这一发现已通过在合成召回任务上的实验得到验证。