实体 GPT-2

GPT-2

PulseAugur coverage of GPT-2 — every cluster mentioning GPT-2 across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

105

90 天内 105

发布 · 30天

90 天内 0

论文 · 30天

90 天内 88

层级分布 · 90 天

frontier release 1
research 42
tool 55
commentary 7

主题

论文 88
模型发布 44
其他 28
基础设施 19
安全 15
产品 13
观点 3
政策 2

关系

developed by OpenAI 100%
instance of llama 90%
instance of LLM 90%
instance of transformers 90%
developed Andrej Karpathy 90%
instance of large-language models 90%
used by arXiv 70%
used by Transformer++ 70%
instance of Transformer++ 70%
used by LLM 70%
instance of Pythia 70%
used by muon 70%

时间线

2026-06-27 research_milestone OpenAI has developed GPT-2, a model deemed too dangerous for public release due to safety concerns. 来源

情绪 · 30 天

23 天有情绪数据

最近 · 第 1/6 页 · 共 105 条

RESEARCH · CL_135150 · Jul 9 · 12:29

DrugGen 2模型通过整合疾病背景信息增强药物发现

研究人员开发了DrugGen-2，这是一种新颖的生成式语言模型，旨在通过在分子特性的同时考虑疾病背景信息来增强药物发现。该模型是通过监督微调和使用GRPO进行强化学习的两步过程对GPT-2模型进行微调而创建的。与基线模型相比，DrugGen-2在生成与糖尿病肾病相关靶点具有改进的预测结合亲和力的独特分子方面表现出优越的性能。
TOOL · CL_134048 · Jul 9 · 11:30

GPT-2 解码器机制：深入解析下一个词的预测

本文提供了一个关于 GPT-2 解码器模型如何预测下一个词的详细分步解释。它追踪单个向量在模型层中的旅程，说明了每一次矩阵乘法和参数计数。解释强调，解码器层是在原地重写固定宽度的向量，而不是压缩或替换 token，最终产生下一个词的概率分布。
RESEARCH · CL_135182 · Jul 9 · 06:46

新的LEXIC模型利用眼动追踪数据提高阅读理解预测能力

研究人员开发了LEXIC，这是一种通过注入预先计算的词语难度信号（如GPT-2的意外度、词频和词长）来增强仅基于注视的模型以从眼动预测阅读理解的新方法。LEXIC在准确性方面取得了统计学上的显著改进。特别是LEXIC-Concat机制在预测未见过读者的理解能力方面显示出显著的提升。
TOOL · CL_132669 · Jul 8 · 16:58

QLLM 发布，采用新颖 O(1) 推理架构，无 KV 缓存

一款名为 QLLM 的新型语言模型已发布，其采用了一种新颖的架构，不依赖于 Transformer 或 Mamba。该模型拥有 O(1) 推理复杂度，意味着其处理时间不随输入长度增加而增加，并且无需 KV 缓存即可运行。虽然目前性能处于 GPT-2 水平，尚未达到最先进水平，但 QLLM 已开源，其代码和模型可在 Hugging Face 上获取，并可能应用于语音建模。
TOOL · CL_131582 · Jul 8 · 04:00

新的密码学方法验证AI模型微调的完整性

研究人员引入了一个名为微调完整性（FTI）的新密码学概念，用于验证大型机器学习模型如何被更新。FTI允许审计人员在无需访问模型参数的情况下，确认微调后的模型是否遵循声称的更新过程。该系统使用简洁模型差异证明（SMDPs）来认证结构化参数漂移，支持诸如范数受限、低秩和稀疏漂移等更新，这些更新涵盖了LoRA和前缀微调等常用方法。在合成数据和GPT-2微调上的原型评估表明，证明是紧凑的，并且验证是高效的。
TOOL · CL_131519 · Jul 8 · 04:00

新方法揭示大型语言模型中共享的算法核心

研究人员开发了一种名为算法核心提取 (ACE) 的新方法，用于识别 Transformer 模型内的基本计算结构。该技术分离出对任务至关重要且在不同训练运行和模型架构中一致出现的紧凑子空间。通过分析这些不变的核心，研究表明像 GPT-2、LLaMA-3.1、Gemma-2 和 Qwen2.5 这样的大型语言模型在语法数字处理方面共享一个共同的底层结构，并且可以通过操纵该结构来改变文本生成。
TOOL · CL_128607 · Jul 7 · 04:00

新理论从语言统计预测神经缩放定律

研究人员开发了一种新理论，可以定量预测在自然语言数据集上训练的大型语言模型（尤其是在数据受限的情况下）的神经缩放定律的指数。该理论确定了语言的两个关键统计特性：成对标记相关性的衰减和下一标记条件熵随上下文长度的衰减。推导出的公式没有自由参数，可以根据这些语言统计数据准确预测缩放指数，并已在 TinyStories 和 WikiText 基准上训练的 GPT-2 和 LLaMA 等模型上得到验证。
RESEARCH · CL_128373 · Jul 5 · 02:23

新框架统一了因果和掩码模型的上下文学习分析

研究人员开发了一个统一的统计学习框架，用于分析因果和掩码语言模型的上下文学习（ICL）能力。该框架将自回归和掩码预训练目标置于共同的超额风险分析中，为两者提供了理论界限。实验表明，像掩码对编码器（MPE）这样的掩码语言模型可以达到与GPT-2风格的因果Transformer相当的性能，这表明ICL并非因果模型的专属。
TOOL · CL_123190 · Jul 2 · 00:00

新的WARP框架从权重推断基础模型训练数据

研究人员开发了一个名为WARP的新框架，可以直接从基础模型发布的权重中推断出其使用的训练数据组合。该方法绕过了对训练数据或训练轨迹的直接访问需求，而这些数据或轨迹通常由模型开发者保密。WARP通过分析权重空间中训练数据的几何足迹来工作，能够以高精度近似领域比例，其表现优于现有的成员推断等方法。
TOOL · CL_121068 · Jul 1 · 12:18

新方法可从LLM隐藏状态恢复输入文本

研究人员开发了一种新方法，可以从解码器语言模型的隐藏状态中恢复输入文本。该方法将反演视为连续嵌入空间优化，在最后进行硬标记投影之前，将软代理推向泄露的目标。研究表明，虽然包含内容的标记几乎完美地恢复，但在密集嵌入区域中以空格开头的高频功能词更容易导致重建失败。这种连续的表述允许可观察的优化和可检测的失败，表明GPT-2的最后一层隐藏状态与原始文本一样敏感。
TOOL · CL_117820 · Jun 30 · 04:00

更新的语料库EPIC-EuroParl-UdS助力翻译和口译研究

本文介绍了EPIC-EuroParl-UdS，这是一个欧洲议会演讲及其翻译/口译的更新语料库。该资源通过修正的元数据、改进的语言注释以及词语对齐和意外度指数等新层级进行了优化。它支持对语言变异的信息论方法、书面语和口语模式的比较以及翻译现象的分析等方面的研究。本文中的一项新研究验证了口语数据，并评估了GPT-2和机器翻译模型在预测口译中的填充词方面的表现。
TOOL · CL_117672 · Jun 30 · 04:00

新的EVAF机制实现了语言代理中选择性记忆巩固

研究人员开发了EVAF，一种用于长期语言代理选择性参数巩固的新机制。这种回声-价吸引子场（Echo-Valence Attractor Field）方法结合测试重测协议，旨在确定哪些经验可以被整合进模型的行为中，而不仅仅是简单的检索。在GPT-2和TinyLlama上的实验表明，EVAF优先巩固高价、高惊喜的经验，同时保持事实记忆并最小化参数漂移。
RESEARCH · CL_117616 · Jun 30 · 04:00

新研究探索非线性缩放和几何优化以实现高效LLM训练

两篇新研究论文探讨了更高效训练大型语言模型（LLM）的方法。第一篇论文《关于LLM训练学习率缩放的非线性研究》调查了当前学习率外推法的局限性，并提出最优学习率在更大规模下呈现向上曲率，这可以通过关注有效学习率或数据外推来缓解。第二篇论文《面向高效LLM训练的几何原理随机优化》引入了新算法GrassWalk和GrassJump，它们利用梯度子空间的几何特性来提高优化效率，在LLaMA和Qwen等模型上取得了最先进的成果。
RESEARCH · CL_119485 · Jun 29 · 18:42

Transformer 因生成失败而难以处理“不可能”的语言

一篇新的研究论文探讨了为什么像 GPT-2 这样的 Transformer 语言模型难以处理人类可以习得的“不可能”语言。研究发现，虽然这些模型对语法敏感度有所体现，但在生成高质量、长句方面却表现出明显的不足。这表明，生成失败，而非语法不敏感，可能是这些模型无法处理这种非自然语言的主要原因。
RESEARCH · CL_117330 · Jun 29 · 07:40

Mamba 语言模型处理时间与人类阅读速度一致

arXiv 上发表的一项新研究表明，Mamba 语言模型的单词处理时间与人类阅读时间之间存在相关性。研究人员发现，Mamba 的每词时间步长（一种衡量循环状态转换持续时间的方法）可以显著预测人类阅读特定单词所需的时间。即使在控制了 GPT-2 意外度等其他语言预测因素后，这一发现仍然成立。该研究表明，Mamba 的架构可能为理解人类语言处理提供新的见解，特别是关于模型如何管理短期和长期信息。
TOOL · CL_114941 · Jun 28 · 19:38

开发者从零开始用 C/CUDA 构建 GPT-2 规模模型

一位开发者创建了 NanoEuler，一个完全从零开始使用 C/CUDA 构建的 GPT-2 规模语言模型，摒弃了 PyTorch 等常用 AI 库。该项目侧重于工程方面，具有手动编写的训练前向和后向传播。该模型拥有约 1.16 亿个参数，可以在单个消费级 GPU 上进行训练，并展示了学习到的语法和百科全书式的知识，尽管由于其规模而缺乏现实世界的知识。
SIGNIFICANT · CL_113829 · Jun 27 · 00:00

OpenAI 认为 GPT-2 过于危险，无法公开发布

OpenAI 开发了一个名为 GPT-2 的新 AI 模型，他们认为该模型过于危险，无法公开发布。该模型的能力被认为存在重大风险，因此 OpenAI 决定不广泛使用它。
TOOL · CL_111702 · Jun 26 · 04:00

自主系统在无人干预的情况下对30B Nemotron模型进行训练后

研究人员开发了一个自主系统，能够在无人干预的情况下对一个拥有300亿参数的模型进行训练后。该系统成功地在数周内迭代训练了一个Nemotron模型，并在NVIDIA Nemotron-Reasoning Challenge上取得了有竞争力的分数。值得注意的是，该系统检测到了一个误导性的发展指标，并调整了其搜索策略以优先考虑外部性能，展示了超越单纯优化的发现能力。
RESEARCH · CL_115254 · Jun 25 · 19:52

新论文揭示AI模型可解释性中的隐藏交互效应

一篇题为“多重中介的诅咒”（The Curse of Multiple Mediators）的新研究论文探讨了激活打补丁（activation patching）这一机械可解释性主要工具的局限性。该论文认为，用于将因果责任归因于模型组件的激活打补丁，也会捕获依赖于其他组件状态的交互效应。这些交互效应可能导致可解释性研究中的不稳定性以及不准确的结论，正如在GPT-2 IOI电路中所展示的那样。作者提出，这些交互效应并非无关紧要，而是理解…
RESEARCH · CL_109002 · Jun 24 · 18:16

新方法将Transformer的位置编码适配到图数据

研究人员正在探索将旋转位置编码（RoPE）——一种广泛用于Transformer大语言模型和视觉Transformer的技术——应用于图结构数据。一种称为波诱导旋转编码（WIRE）的方法，应用图拉普拉斯算子的谱信息来旋转token，从而提高图学习任务的性能。另一项开发，高维动态旋转位置嵌入（HDD-RoPE），提出了一种多维位置嵌入方法，允许数据依赖的旋转并加速在TinyStories等数据集上的收敛。

DrugGen 2模型通过整合疾病背景信息增强药物发现

GPT-2 解码器机制：深入解析下一个词的预测

新的LEXIC模型利用眼动追踪数据提高阅读理解预测能力

QLLM 发布，采用新颖 O(1) 推理架构，无 KV 缓存

新的密码学方法验证AI模型微调的完整性

新方法揭示大型语言模型中共享的算法核心

新理论从语言统计预测神经缩放定律

新框架统一了因果和掩码模型的上下文学习分析

新的WARP框架从权重推断基础模型训练数据

新方法可从LLM隐藏状态恢复输入文本

更新的语料库EPIC-EuroParl-UdS助力翻译和口译研究

新的EVAF机制实现了语言代理中选择性记忆巩固

新研究探索非线性缩放和几何优化以实现高效LLM训练

Transformer 因生成失败而难以处理“不可能”的语言

Mamba 语言模型处理时间与人类阅读速度一致

开发者从零开始用 C/CUDA 构建 GPT-2 规模模型

OpenAI 认为 GPT-2 过于危险，无法公开发布

自主系统在无人干预的情况下对30B Nemotron模型进行训练后

新论文揭示AI模型可解释性中的隐藏交互效应

新方法将Transformer的位置编码适配到图数据