transformers
PulseAugur coverage of transformers — every cluster mentioning transformers across labs, papers, and developer communities, ranked by signal.
- competes with Recurrent Neural Networks 80%
- used by vLLM 70%
- used by llama.cpp 70%
- competes with State space models: Univariate representation of a multivariate model, partial interpolation and periodic convergence 70%
- instance of Apache Software License 2.0 70%
- competes with State Space Models 70%
- competes with Mamba 70%
- competes with CNNS 70%
- used by functional magnetic resonance imaging 70%
- used by Ollama 60%
- instance of Mamba 60%
- competes with long short-term memory 60%
- 2026-05-13 research_milestone A paper was published analyzing the impact of data representation and tokenization on Transformer context effectiveness. 来源
17 天有情绪数据
-
腾讯发布紧凑型移动设备离线翻译模型
腾讯混元团队发布了Hy-MT1.5-1.8B-1.25bit,一个为移动设备设计的开源离线翻译模型。该模型经过高度量化,体积仅为440MB,支持33种语言,翻译质量优于Google Translate。该模型完全在用户手机本地运行,确保隐私并无需互联网连接。它已被集成到腾讯的各种产品中,并在国际机器翻译竞赛中获得顶级排名。
-
Numind发布NuExtract3以实现文档理解
Numind发布了NuExtract3,这是一个拥有40亿参数的视觉语言模型,专为文档理解而设计。该模型在结构化信息提取和将图像转换为Markdown方面表现出色,使其在OCR、RAG预处理和处理各种文档类型方面非常有用。NuExtract3支持多模态输入、多语言文档,并提供推理和非推理两种推理模式,同时已有多种量化格式可用。
-
研究人员提出循环架构以改进 Transformer 的状态跟踪
一篇新论文提出,Transformer 的前馈架构从根本上限制了它们动态跟踪不断变化状态的能力。作者认为,这种限制迫使状态表示深入模型内部,最终耗尽模型的深度并导致信息不可访问。他们建议,与显式的思维痕迹相比,循环架构对于时间延展的认知是必要的,并提出了一种循环 Transformer 架构的分类法来解决这个问题。
-
Transformer架构显著影响模型错误检测能力
一篇新论文揭示,Transformer模型的架构显著影响其通过内部激活信号来指示决策质量的能力,这一特性被称为“可观测性”。这种可观测性对于检测置信度分数未能捕捉到的置信错误至关重要。研究表明,某些架构配置,例如Pythia的24层、16头设置,即使在性能指标提高的情况下,也会导致这种信号在训练过程中崩溃。这一发现表明,架构选择是开发可靠AI监控系统的关键因素。
-
Hugging Face 托管微调版 Qwen 3.6 模型
Hugging Face 托管了两个微调版的 Qwen 3.6 模型,一个拥有 400 亿参数,另一个拥有 270 亿参数。这两个模型分别命名为 'DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF' 和 'DavidAU/Qwen3.6-27B-Heretic-Uncensored-F…
-
AI 进展:事实核查新算法、高效长上下文模型和计算使用现实
提出了一种新的基于 AI 的信息验证和自动化事实核查算法,该算法利用自我引导研究并与当前来源进行比较。另外,有人批评了围绕 DeepSeek 的夸大恐惧和媒体歪曲,强调了计算使用呈指数级增长的现实。此外,还介绍了一种混合长上下文(HyLo)架构,该架构在无需完全重新训练的情况下显著扩展了上下文长度并减少了 KV 缓存,表明未来的 AI 可能不完全依赖 Transformers。
-
Poolside AI 发布开源 Laguna XS.2 和 M.1 编码模型
Poolside AI 发布了两款新的代理式编码模型 Laguna M.1 和 Laguna XS.2,以及它们的代理训练和运行时间。Laguna M.1 是一个大型混合专家(MoE)模型,在 NVIDIA Hopper GPU 上使用 30T 个 token 进行训练,而 Laguna XS.2 是一个较小的开源模型,可在 Apache 2.0 许可下使用。这些模型专为长周期任务设计,旨在实现能够编写和执行代码的更强大的 AI 代理。
-
讲义介绍神经网络的理论验证
arXiv上发布了一套新的讲义,详细介绍了神经网络验证的理论方面。讲义涵盖了各种神经网络架构,包括前馈网络、循环网络、注意力机制和Transformer。它们还介绍了用于验证的规范语言和算法技术。
-
小米的MiMo-v2.5-Pro开源模型可与顶级AI编码助手相媲美
小米发布了MiMo-v2.5-Pro,这是一款专注于编码的开源语言模型,在复杂任务中展现出令人印象深刻的能力。该模型在数小时内成功完成了一个大学级别的编译器项目,根据模糊的提示构建了一个功能齐全的视频编辑器应用程序,并解决了模拟电路设计问题。MiMo-v2.5-Pro在编码基准测试中表现强劲,可与GPT-5.4和Claude Opus 4.6等顶级闭源模型相媲美,现已在HuggingFace上发布。
-
Microsoft open-sources VibeVoice for long-form speech AI
Microsoft has open-sourced VibeVoice, a suite of advanced voice AI models. The VibeVoice family includes both Text-to-Speech (TTS) and Automatic Speech Recognition (ASR) capabilities. A key innovation is the use of cont…
-
深度残差网络中的渐进逼近:理论与验证
研究人员引入了层级渐进逼近(LPA),一种深度残差网络的新训练原则。该方法将残差网络重构为逐层逼近过程,证明误差可以随着网络深度的增加而单调递减。LPA使单个训练好的网络能够在不同深度提供有用的预测,从而无需重新训练即可实现高效推理。
-
Quantized Qwen3.6-27B model achieves 100k context on 16GB VRAM
A user on Reddit's r/LocalLLaMA has detailed a method for running the Qwen3.6-27B model on a system with 16GB of VRAM, achieving a context length of 100,000 tokens. The process involves creating a custom GGUF quantizati…
-
生成式AI时代,机器学习工程师质疑传统机器学习的相关性
机器学习系统构建者 Vicki Boykis 反思了大型语言模型时代机器学习工程领域不断变化的格局。她质疑当大型语言模型能够生成代码并加速原型设计时,传统机器学习实践的持续相关性和价值。Boykis 借用构建和维护自己的知识“上下文窗口”的比喻,以有效地将新的AI工具与现有的软件工程原理相结合。
-
研究人员提出新方法将模型参数与计算量解耦
研究人员引入了新颖的方法来解耦深度学习中模型大小与计算成本。一种方法是“哈希层”,通过使用哈希进行专家路由,可以用更少的计算操作实现更大的模型,其性能优于现有的稀疏混合专家模型。另一种方法是“阶梯注意力”,在不增加参数的情况下增加计算量,为模型架构设计提供了新视角。
-
Apple enables parallel RNN training, challenging transformer dominance
Apple researchers have developed ParaRNN, a new framework that enables parallel training of nonlinear Recurrent Neural Networks (RNNs). This advancement overcomes the historical sequential bottleneck in RNN training, ac…
-
Apple researchers unveil parallel RNN training and enhanced SSMs at ICLR 2026
Apple researchers are presenting new work at ICLR 2026, focusing on advancements in recurrent neural networks (RNNs) and state space models (SSMs). Their paper "ParaRNN" introduces a parallelized training framework that…
-
NVIDIA Cosmos Predict 2.5 fine-tuned for robots; new ShadowPEFT method emerges
NVIDIA has released a guide for fine-tuning its Cosmos Predict 2.5 world model for robot video generation using parameter-efficient techniques like LoRA and DoRA. This method allows for adaptation to specific domains, s…
-
Moonshot AI 发布 Kimi K2.6 多模态代理模型
Moonshot AI 发布了 Kimi K2.6,一个开源的多模态模型,专为高级代理任务设计。该模型在多种语言和领域的长时程编码方面表现出显著的改进。Kimi K2.6 还擅长根据提示和视觉输入生成生产就绪的界面和全栈工作流,并注重美学精度。
-
Qwen发布27B多模态模型,用于高级编码
Qwen发布了Qwen3.6-27B,这是一款为高级编码任务设计的、参数量为270亿的密集多模态模型。该模型旨在提供旗舰级的智能体编码性能,超越了该类别中先前的开源模型。社区成员已在Hugging Face上提供了Qwen3.6-27B的各种量化版本,方便其在不同平台和库中使用。
-
Hugging Face Transformers 库新增模型并修复错误
Hugging Face 的 `transformers` 库发布了一系列版本和补丁,引入了新模型并修复了各种错误。值得注意的是,5.9.0 版本添加了 Cohere 的 Command A+ (Cohere2Moe) 和 HRM-Text,同时改进了音频支持和生成能力。早期版本,如 v5.8.0,集成了 DeepSeek-V4、Gemma 4 Assistant、GraniteSpeechPlus、Granite4Vision、EX…