实体 transformers

transformers

PulseAugur coverage of transformers — every cluster mentioning transformers across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

172

90 天内 172

发布 · 30天

90 天内 0

论文 · 30天

120

90 天内 120

层级分布 · 90 天

frontier release 6
significant 6
research 56
tool 96
commentary 8

主题

论文 120
模型发布 83
其他 55
产品 50
基础设施 25
安全 19
观点 3
政策 1

关系

used by KV cache 90%
used by vLLM 70%
used by llama.cpp 70%
used by Ollama 70%
used by Unsloth 70%
competes with State space models: Univariate representation of a multivariate model, partial interpolation and periodic convergence 70%
used by CNNS 70%
used by AdamW 70%
competes with State Space Models 70%
instance of grokking 70%
used by llama-cpp-python 70%
used by functional magnetic resonance imaging 70%

时间线

2026-05-13 research_milestone A paper was published analyzing the impact of data representation and tokenization on Transformer context effectiveness. 来源

情绪 · 30 天

26 天有情绪数据

最近 · 第 8/9 页 · 共 172 条

RESEARCH · CL_08680 · Apr 29 · 04:00

研究人员提出循环架构以改进 Transformer 的状态跟踪

一篇新论文提出，Transformer 的前馈架构从根本上限制了它们动态跟踪不断变化状态的能力。作者认为，这种限制迫使状态表示深入模型内部，最终耗尽模型的深度并导致信息不可访问。他们建议，与显式的思维痕迹相比，循环架构对于时间延展的认知是必要的，并提出了一种循环 Transformer 架构的分类法来解决这个问题。
RESEARCH · CL_08642 · Apr 29 · 04:00

Transformer架构显著影响模型错误检测能力

一篇新论文揭示，Transformer模型的架构显著影响其通过内部激活信号来指示决策质量的能力，这一特性被称为“可观测性”。这种可观测性对于检测置信度分数未能捕捉到的置信错误至关重要。研究表明，某些架构配置，例如Pythia的24层、16头设置，即使在性能指标提高的情况下，也会导致这种信号在训练过程中崩溃。这一发现表明，架构选择是开发可靠AI监控系统的关键因素。
RESEARCH · CL_47597 · Apr 29 · 02:37

Hugging Face 托管微调版 Qwen 3.6 模型

Hugging Face 托管了两个微调版的 Qwen 3.6 模型，一个拥有 400 亿参数，另一个拥有 270 亿参数。这两个模型分别命名为 'DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF' 和 'DavidAU/Qwen3.6-27B-Heretic-Uncensored-F…
RESEARCH · CL_07800 · Apr 28 · 17:45

AI 进展：事实核查新算法、高效长上下文模型和计算使用现实

提出了一种新的基于 AI 的信息验证和自动化事实核查算法，该算法利用自我引导研究并与当前来源进行比较。另外，有人批评了围绕 DeepSeek 的夸大恐惧和媒体歪曲，强调了计算使用呈指数级增长的现实。此外，还介绍了一种混合长上下文（HyLo）架构，该架构在无需完全重新训练的情况下显著扩展了上下文长度并减少了 KV 缓存，表明未来的 AI 可能不完全依赖 Transformers。
RESEARCH · CL_07734 · Apr 28 · 16:17

Poolside AI 发布开源 Laguna XS.2 和 M.1 编码模型

Poolside AI 发布了两款新的代理式编码模型 Laguna M.1 和 Laguna XS.2，以及它们的代理训练和运行时间。Laguna M.1 是一个大型混合专家（MoE）模型，在 NVIDIA Hopper GPU 上使用 30T 个 token 进行训练，而 Laguna XS.2 是一个较小的开源模型，可在 Apache 2.0 许可下使用。这些模型专为长周期任务设计，旨在实现能够编写和执行代码的更强大的 AI 代理。
RESEARCH · CL_08299 · Apr 28 · 15:01

讲义介绍神经网络的理论验证

arXiv上发布了一套新的讲义，详细介绍了神经网络验证的理论方面。讲义涵盖了各种神经网络架构，包括前馈网络、循环网络、注意力机制和Transformer。它们还介绍了用于验证的规范语言和算法技术。
FRONTIER RELEASE · CL_07657 · Apr 28 · 12:16

小米的MiMo-v2.5-Pro开源模型可与顶级AI编码助手相媲美

小米发布了MiMo-v2.5-Pro，这是一款专注于编码的开源语言模型，在复杂任务中展现出令人印象深刻的能力。该模型在数小时内成功完成了一个大学级别的编译器项目，根据模糊的提示构建了一个功能齐全的视频编辑器应用程序，并解决了模拟电路设计问题。MiMo-v2.5-Pro在编码基准测试中表现强劲，可与GPT-5.4和Claude Opus 4.6等顶级闭源模型相媲美，现已在HuggingFace上发布。
RESEARCH · CL_07571 · Apr 28 · 11:56

Microsoft 开源 VibeVoice 用于长篇语音AI

Microsoft 已开源 VibeVoice，这是一套先进的语音AI模型。VibeVoice 系列包含文本到语音（TTS）和自动语音识别（ASR）功能。一项关键创新是使用了连续语音分词器，它们可以高效地处理长音频序列，在降低计算负载的同时保持保真度。
RESEARCH · CL_06364 · Apr 27 · 08:10

深度残差网络中的渐进逼近：理论与验证

研究人员引入了层级渐进逼近（LPA），一种深度残差网络的新训练原则。该方法将残差网络重构为逐层逼近过程，证明误差可以随着网络深度的增加而单调递减。LPA使单个训练好的网络能够在不同深度提供有用的预测，从而无需重新训练即可实现高效推理。
COMMENTARY · CL_45305 · Apr 27 · 03:52

AI新闻：数据中心漏洞、Mistral更名及研究项目

一位用户发帖讨论了摧毁AI数据中心的惊人容易程度，指出由于其生产积压了十年，一次变压器故障就可能使一个设施瘫痪。另一则帖子宣布Mistral AI将其“Le Chat”模型更名为“Mistral Vibe”，并强调了其代理能力。该集群还包括关于AI生成艺术、涉及“AI女友”的骗局以及与Anthropic研究相关的“Project Glasswing”项目的讨论。
RESEARCH · CL_03569 · Apr 25 · 20:52

量化后的 Qwen3.6-27B 模型在 16GB 显存上实现 100k 上下文长度

Reddit r/LocalLLaMA 上的用户详细介绍了一种在拥有 16GB 显存的系统上运行 Qwen3.6-27B 模型的方法，实现了 100,000 个 token 的上下文长度。该过程涉及使用 Unsloth 的 imatrix 和 llama-cpp-turboquant 的特定分支创建模型的自定义 GGUF 量化。用户提供了分步说明，包括构建命令和服务器执行参数，以及与 OpenCode 集成的配置。
COMMENTARY · CL_03106 · Apr 25 · 13:46

生成式AI时代，机器学习工程师质疑传统机器学习的相关性

机器学习系统构建者 Vicki Boykis 反思了大型语言模型时代机器学习工程领域不断变化的格局。她质疑当大型语言模型能够生成代码并加速原型设计时，传统机器学习实践的持续相关性和价值。Boykis 借用构建和维护自己的知识“上下文窗口”的比喻，以有效地将新的AI工具与现有的软件工程原理相结合。
RESEARCH · CL_03609 · Apr 24 · 16:44

研究人员提出新方法将模型参数与计算量解耦

研究人员引入了新颖的方法来解耦深度学习中模型大小与计算成本。一种方法是“哈希层”，通过使用哈希进行专家路由，可以用更少的计算操作实现更大的模型，其性能优于现有的稀疏混合专家模型。另一种方法是“阶梯注意力”，在不增加参数的情况下增加计算量，为模型架构设计提供了新视角。
RESEARCH · CL_01130 · Apr 23 · 00:00

Apple 推动RNN并行训练，挑战Transformer主导地位

Apple 研究人员开发了ParaRNN，一个能够并行训练非线性循环神经网络（RNN）的新框架。这一进展克服了RNN训练中历史性的顺序瓶颈，实现了665倍的加速，并能够创建参数量达70亿的RNN，其性能可与Transformer相媲美。ParaRNN的代码库已作为开源工具发布，以促进在高效序列建模方面的进一步研究，特别是在资源受限环境下的LLM。
RESEARCH · CL_01131 · Apr 22 · 00:00

Apple研究人员在ICLR 2026上发布并行RNN训练和增强SSM

Apple研究人员正在ICLR 2026上展示新成果，重点关注循环神经网络（RNN）和状态空间模型（SSM）的进步。他们的论文“ParaRNN”介绍了一个并行化训练框架，使大规模RNN能够实现与Transformer相媲美的性能，并已将代码库开源。另一篇论文“To Infinity and Beyond”表明，虽然SSM提供了效率，但由于内存有限，其在长文本生成任务上的性能会下降，而通过访问外部工具可以克服这一限制。
RESEARCH · CL_37345 · Apr 21 · 09:17

NVIDIA Cosmos Predict 2.5 微调用于机器人；出现新的 ShadowPEFT 方法

NVIDIA 发布了一份指南，介绍如何使用 LoRA 和 DoRA 等参数高效技术微调其 Cosmos Predict 2.5 世界模型以生成机器人视频。此方法允许适应特定领域，例如机器人操作，而无需承担完全微调的高成本和灾难性遗忘风险。该过程涉及使用 diffusers 和 accelerate 等库在较小的数据集上进行训练，从而能够为下游学习任务生成合成机器人轨迹。另外，研究人员推出了 ShadowPEFT，这是一个新颖的参数高效…
SIGNIFICANT · CL_48566 · Apr 14 · 04:23

Moonshot AI 发布 Kimi K2.6 多模态代理模型

Moonshot AI 发布了 Kimi K2.6，一个开源的多模态模型，专为高级代理任务设计。该模型在多种语言和领域的长时程编码方面表现出显著的改进。Kimi K2.6 还擅长根据提示和视觉输入生成生产就绪的界面和全栈工作流，并注重美学精度。
FRONTIER RELEASE · CL_47594 · Apr 13 · 09:12

Qwen发布27B多模态模型，用于高级编码

Qwen发布了Qwen3.6-27B，这是一款为高级编码任务设计的、参数量为270亿的密集多模态模型。该模型旨在提供旗舰级的智能体编码性能，超越了该类别中先前的开源模型。社区成员已在Hugging Face上提供了Qwen3.6-27B的各种量化版本，方便其在不同平台和库中使用。
RESEARCH · CL_48040 · Apr 9 · 14:05

Hugging Face Transformers 库新增模型并修复错误

Hugging Face 的 `transformers` 库发布了一系列版本和补丁，引入了新模型并修复了各种错误。值得注意的是，5.9.0 版本添加了 Cohere 的 Command A+ (Cohere2Moe) 和 HRM-Text，同时改进了音频支持和生成能力。早期版本，如 v5.8.0，集成了 DeepSeek-V4、Gemma 4 Assistant、GraniteSpeechPlus、Granite4Vision、EX…
FRONTIER RELEASE · CL_01750 · Apr 2 · 05:44

Google 发布支持长上下文的开源 Gemma 4 多模态模型

Google DeepMind 发布了 Gemma 4，这是一个在新发布的、基于 Apache 2.0 许可的开源模型家族，标志着其开源 AI 产品的一次重大进步。这些模型专为推理和代理工作流而设计，并提供了针对本地和边缘部署优化的版本，包括文本、视觉和音频的原生多模态能力。早期基准测试表明其性能具有竞争力，其中 31B 模型在开源选项中排名靠前，并且 llama.cpp 和 Ollama 等平台已迅速提供了生态系统支持。

研究人员提出循环架构以改进 Transformer 的状态跟踪

Transformer架构显著影响模型错误检测能力

Hugging Face 托管微调版 Qwen 3.6 模型

AI 进展：事实核查新算法、高效长上下文模型和计算使用现实

Poolside AI 发布开源 Laguna XS.2 和 M.1 编码模型

讲义介绍神经网络的理论验证

小米的MiMo-v2.5-Pro开源模型可与顶级AI编码助手相媲美

Microsoft 开源 VibeVoice 用于长篇语音AI

深度残差网络中的渐进逼近：理论与验证

AI新闻：数据中心漏洞、Mistral更名及研究项目

量化后的 Qwen3.6-27B 模型在 16GB 显存上实现 100k 上下文长度

生成式AI时代，机器学习工程师质疑传统机器学习的相关性

研究人员提出新方法将模型参数与计算量解耦

Apple 推动RNN并行训练，挑战Transformer主导地位

Apple研究人员在ICLR 2026上发布并行RNN训练和增强SSM

NVIDIA Cosmos Predict 2.5 微调用于机器人；出现新的 ShadowPEFT 方法

Moonshot AI 发布 Kimi K2.6 多模态代理模型

Qwen发布27B多模态模型，用于高级编码

Hugging Face Transformers 库新增模型并修复错误

Google 发布支持长上下文的开源 Gemma 4 多模态模型