实体 transformers

transformers

PulseAugur coverage of transformers — every cluster mentioning transformers across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

365

90 天内 365

发布 · 30天

90 天内 0

论文 · 30天

234

90 天内 234

层级分布 · 90 天

frontier release 12
significant 9
research 116
tool 209
commentary 16
meme 3

主题

论文 234
模型发布 199
产品 113
其他 93
基础设施 63
安全 23
观点 6
政策 2

关系

instance of alphaXiv 90%
used by KV cache 90%
instance of grokking 90%
instance of diffusers 90%
used by attention 90%
used by Rotary Position Embeddings 90%
used by NumPy 90%
used by vLLM 70%
used by llama.cpp 70%
used by llama-cpp-python 70%
used by Ollama 70%
competes with State Space Models 70%

时间线

2026-07-07 product_launch Hasbro launched a new Transformers collaboration with Scooby-Doo, featuring the Mystery Machine as Mysterious Prime and Scooby Snacks as Automutt. 来源
2026-07-03 product_launch Hugging Face released version 5.13.0 of its Transformers library, adding new open-source models from KimiK, Xiaomi MiMo, NVIDIA, and Alibaba. 来源
2026-05-13 research_milestone A paper was published analyzing the impact of data representation and tokenization on Transformer context effectiveness. 来源

情绪 · 30 天

30 天有情绪数据

最近 · 第 1/10 页 · 共 200 条

TOOL · CL_134251 · Jul 9 · 14:03

论文探讨 AI 模型如何学习不存在的动词

本周末将发表一篇关于 transformer 如何学习反事实（contrafactuals）的论文，这是一种不存在的动词。该研究将通过一篇简短的博客文章分享，供无法参加巴黎研讨会的人员阅读。
TOOL · CL_133927 · Jul 9 · 10:04

LLM、MCP 和 RAG 领域指南面向 AI 工程师

这是一份面向大型语言模型 (LLM)、模型上下文协议 (MCP) 和检索增强生成 (RAG) 的综合领域指南。它专为需要生产环境实用、动手知识的 AI 工程、测试和运营领域的专业人士而设计。该指南涵盖了企业 AI 架构、提示工程、向量数据库、AI 测试、LLMOps 和安全等基本主题，并提供可操作的见解和问答环节以巩固理解。
TOOL · CL_133619 · Jul 9 · 04:00

新的 DDAM 框架通过在线优化增强多智能体记忆

研究人员引入了一个分布式动态联想记忆 (DDAM) 框架，将经典的联想记忆扩展到多智能体、时变数据场景。提出的 DDAM-TOGD 算法采用基于树的分布式在线梯度下降方法，使智能体能够通过选择性的智能体间通信来更新其本地记忆。该框架包括理论性能保证，证明了次线性静态遗憾和动态遗憾界限，以及一种用于优化通信树以最小化延迟的策略。数值实验表明，DDAM-TOGD 在动态、分布式环境中优于现有的在线学习基线。
RESEARCH · CL_133181 · Jul 8 · 17:38

新研究将RoPE频率使用与训练数据结构和长度泛化联系起来

一篇新研究论文探讨了Transformer中的旋转位置嵌入（RoPE）如何非均匀地使用频率，并提出了一个以数据为中心的解释。研究表明，RoPE频率的选择是为了与训练数据的相对距离结构对齐，最优频率与数据诱导的依赖性剖面的宽度成反比。这一原理有助于解释语言模型中涌现的频率使用，并与长度泛化相关联，在长度泛化中，降低频率可以提高性能，当依赖性近似于训练时结构的扩张时。
TOOL · CL_131838 · Jul 8 · 09:49

新库将 GPU 加速的惩罚应用于 LLM logits 以增强安全性

一个名为 ReskLogits 的新开源库已被开发出来，通过在 token 采样发生之前的 logits 层面进行干预来增强 LLM 的安全性。这种方法旨在通过实时对危险 token 应用惩罚来防止有害内容的生成，从而使攻击者更难利用提示注入漏洞。该库提供了一个 GPU 加速的 Aho-Corasick 算法，用于高效的模式匹配，并支持多级过滤，允许根据禁用短语的严重程度进行可配置的惩罚。
RESEARCH · CL_133145 · Jul 8 · 06:49

Transformer电路通过局部代数区域学习模块化乘法

一篇新研究论文探讨了Transformer模型如何学习模块化整数乘法，这是一种复杂且不可逆的操作。该研究提出了一种“幺半群扩展”方法，认为Transformer将输入空间划分为局部代数区域，而不是依赖于单一的全局表示。这使得它们能够在这些区域内应用类似群的结构和傅里叶机制，这可以通过嵌入组织和注意力路由模式得到证明。
RESEARCH · CL_133152 · Jul 8 · 05:50

生成式AI框架增强多模态神经影像分析

研究人员开发了一种新颖的多模态生成框架，用于分析结构和功能磁共振成像（MRI）数据。该框架系统地评估了各种编码策略、潜在多模态融合技术和生成模型选择。与其他的生成式变体相比，所提出的多模态图VAE（gMMVAE）架构在生成保真度、重建质量、效率和潜在空间可辨别性等指标上表现出优越性能。
TOOL · CL_131519 · Jul 8 · 04:00

新方法揭示大型语言模型中共享的算法核心

研究人员开发了一种名为算法核心提取 (ACE) 的新方法，用于识别 Transformer 模型内的基本计算结构。该技术分离出对任务至关重要且在不同训练运行和模型架构中一致出现的紧凑子空间。通过分析这些不变的核心，研究表明像 GPT-2、LLaMA-3.1、Gemma-2 和 Qwen2.5 这样的大型语言模型在语法数字处理方面共享一个共同的底层结构，并且可以通过操纵该结构来改变文本生成。
TOOL · CL_131229 · Jul 8 · 03:45

LLM提示结构因禁用提示缓存而增加成本

开发人员无意中通过在系统提示的开头包含动态信息（如时间戳或请求ID）来增加其大型语言模型（LLM）的成本和延迟。这种做法会抵消提示缓存的好处，而提示缓存依赖于精确的令牌前缀来避免重新计算内部状态。因此，LLM API会反复处理冗余令牌，导致输入令牌使用量显著增加，响应时间变慢。为缓解此问题，开发人员应首先组织包含静态信息的提示，然后是动态数据，确保确定性序列化，并监控API使用情况详细信息以跟踪缓存命中率。
TOOL · CL_132365 · Jul 8 · 00:00

vLLM 后端现已匹配 Hugging Face 模型原生速度

Hugging Face 已增强其 vLLM 转换器建模后端，以实现兼容架构的原生推理速度。此更新利用 torch.fx 和 AST 操作在运行时动态融合操作并优化模型图，可媲美自定义编写的 vLLM 实现的性能。这些改进已针对各种 Qwen3 模型进行了基准测试，证明 transformers 后端现在可以提供与 vLLM 原生代码相当的速度，而无需模型作者手动移植其架构。
TOOL · CL_130762 · Jul 7 · 19:31

孩之宝《史酷比狗》变形金刚亮相，推出神秘机器模型

孩之宝发布了与《史酷比狗》合作的新款变形金刚，包含两个变形玩具：神秘机器变形为“Mysterious Prime”，史酷比零食盒变形为“Automutt”。该套装为Mysterious Prime配备了精细配件，包括可替换的弗莱德和维尔玛等角色头部。这次不同寻常的合作旨在吸引两个系列的粉丝，并可能与Netflix即将推出的真人版《史酷比狗》剧集同步推出。
RESEARCH · CL_131323 · Jul 7 · 08:02

Transformer分析斯拉夫议会演讲中的填塞停顿词

研究人员利用基于Transformer的模型，分析了来自四种斯拉夫语（克罗地亚语、捷克语、波兰语和塞尔维亚语）的约4000小时的议会演讲。该研究调查了填塞停顿词（FPs）的出现频率和速率，发现年龄和语速与填塞停顿词的发生率呈负相关，而性别效应则因语言而异。此外，情绪与填塞停顿词的发生率呈正相关，政治倾向和权力地位在特定议会中调节着这些效应。
RESEARCH · CL_129035 · Jul 7 · 04:00

新的LLM量化方法提升速度和准确性

两篇新的研究论文介绍了改进大型语言模型（LLM）效率的新型量化技术。FPTQuant专注于INT4量化的保持函数变换，实现了高达3.9倍的速度提升，且开销极小，准确性与较慢的方法相当。ARCQuant通过增强残差通道提升NVFP4量化，在保持最先进准确性的同时，使GPU上的速度比FP16提升高达3倍。
TOOL · CL_129301 · Jul 7 · 04:00

新论文将梯度下降与神经网络中的隐式EM联系起来

一篇新论文提出，在某些神经网络目标函数中，梯度下降表现为一种隐式的期望最大化（EM）算法。研究表明，对于涉及距离或能量的log-sum-exp结构的优化目标，相对于每个距离的梯度恰好是相应分量的负后验责任。这个代数恒等式是Fisher恒等式的一个特例，意味着标准的神经网络训练在没有显式辅助变量的情况下，隐式地执行了广义EM。这些发现统一了无监督混合模型、注意力机制和交叉熵分类，解释了Transformer等模型中观察到的软聚类和贝叶斯…
TOOL · CL_129251 · Jul 7 · 04:00

SAF3R框架通过动态稀疏注意力提升三维重建Transformer的效率

研究人员推出SAF3R，一个旨在提高前馈三维重建（F3R）Transformer效率的新框架。该新方法解决了F3R Transformer中跨视图全局注意力二次复杂度引起的计算瓶颈，尤其是在处理长图像序列时。SAF3R采用一种无需训练的动态稀疏注意力机制，结合离线头分析和高效的在线适应策略，以动态匹配输入依赖的注意力行为。实验表明，SAF3R在保持相机姿态估计和三维重建质量的同时实现了显著的稀疏性，从而带来了显著的端到端加速。
TOOL · CL_129208 · Jul 7 · 04:00

新的SNLP方法提高了FHE Transformer推理效率

研究人员开发了一种名为层并行推理（SNLP）的新方法，以提高Transformer模型在使用全同态加密（FHE）对加密数据执行计算时的效率。Transformer的传统FHE推理受到非线性运算顺序性的阻碍。SNLP减少了所需的顺序非线性阶段数量，从而显著减少了计算步骤并降低了误差放大。虽然SNLP是对现有FHE友好算子设计的补充，但它并不能取代它们，因为像softmax这样的运算的近似仍然是误差预算中的主要因素。
TOOL · CL_128995 · Jul 7 · 04:00

FuseMamba-VD 推出用于视频暴力检测的高效双分支架构

研究人员推出 FuseMamba-VD，这是一种用于高效视频暴力检测的新型双分支架构。该模型结合了状态空间模型 (SSM) 主干和门控机制，以融合空间和时间特征，从而提高在具有挑战性的监控场景中的准确性。所提出的方法还通过合并几个现有数据集来引入新的基准，展示了最先进的性能以及准确性和计算效率之间的良好平衡。
TOOL · CL_128994 · Jul 7 · 04:00

自然语言处理技术应用于生物序列分析的回顾

一篇最新的综述文章探讨了自然语言处理（NLP）技术在分析基因组学、转录组学和蛋白质组学等生物序列数据中的应用。文章详细介绍了从word2vec到先进的transformer和hyena operator模型等各种NLP方法如何应用于DNA、RNA和蛋白质序列分析。文章还讨论了分词策略、模型架构以及在预测蛋白质结构、基因表达和进化关系方面的最新进展。文章强调，将NLP整合到生物信息学中是理解复杂生物过程的一个有前景的方向。
TOOL · CL_128960 · Jul 7 · 04:00

新框架C*-RASP分析Transformer的规划能力

研究人员开发了C*-RASP，这是C-RASP框架的一个扩展，用于分析仅解码器Transformer模型在AI规划任务中的能力。这个新框架旨在为Transformer处理日益增长的序列长度和词汇量（规划问题中的常见挑战）提供理论保证。该研究确定了Transformer可以被证明学会验证长计划的特定经典规划领域，突出了影响可学习的长度泛化解决方案的结构属性，并通过实证实验支持了这些理论发现。
TOOL · CL_128880 · Jul 7 · 04:00

视觉模型在中文文本处理方面优于词元嵌入

一项发表在arXiv上的新研究探索了Transformer模型的一种替代输入表示方法，挑战了使用离散词元嵌入的普遍做法。研究人员发现，使用经过视觉编码器处理的汉字完整字形图像，其性能显著优于传统的词元嵌入。这种基于视觉的方法在准确性上实现了21%的相对提升，并且与基于词元的基线模型相比，训练周期缩短了一半。研究表明，这种优势特定于像中文这样的基于字符的书写系统，因为它没有直接迁移到英文。

论文探讨 AI 模型如何学习不存在的动词

LLM、MCP 和 RAG 领域指南面向 AI 工程师

新的 DDAM 框架通过在线优化增强多智能体记忆

新研究将RoPE频率使用与训练数据结构和长度泛化联系起来

新库将 GPU 加速的惩罚应用于 LLM logits 以增强安全性

Transformer电路通过局部代数区域学习模块化乘法

生成式AI框架增强多模态神经影像分析

新方法揭示大型语言模型中共享的算法核心

LLM提示结构因禁用提示缓存而增加成本

vLLM 后端现已匹配 Hugging Face 模型原生速度

孩之宝《史酷比狗》变形金刚亮相，推出神秘机器模型

Transformer分析斯拉夫议会演讲中的填塞停顿词

新的LLM量化方法提升速度和准确性

新论文将梯度下降与神经网络中的隐式EM联系起来

SAF3R框架通过动态稀疏注意力提升三维重建Transformer的效率

新的SNLP方法提高了FHE Transformer推理效率

FuseMamba-VD 推出用于视频暴力检测的高效双分支架构

自然语言处理技术应用于生物序列分析的回顾

新框架C*-RASP分析Transformer的规划能力

视觉模型在中文文本处理方面优于词元嵌入