autoregressive model
PulseAugur coverage of autoregressive model — every cluster mentioning autoregressive model across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
全新 7B 统一扩散语言模型 'Sumi' 发布,伴随扩散模型进展
研究人员推出了 Sumi,一个拥有 70 亿参数的统一扩散语言模型 (UDLM),该模型在 1.5 万亿 tokens 上从头开始预训练。这个开源模型在知识、推理和编码任务上表现出与自回归模型相当的性能,但在常识基准测试上表现稍逊。发布内容包括模型权重、检查点以及完整的训练方法,旨在为大规模研究 UDLM 提供参考。此外,其他研究探索了扩散语言模型的进展,包括生成 CUDA 核的方法、通过自生成错误训练改进 Token 编辑,以及开发…
-
新的反思性掩码技术使扩散模型能够进行多轮推理
研究人员引入了反思性掩码(RM),这是一种后训练技术,使掩码扩散模型(MDMs)能够通过迭代自我修正来进行多轮推理。与顺序生成的自回归模型不同,MDMs可以自然地在本地优化输出。RM允许这些模型根据不断变化的上下文重新审视和修改先前的输出,而无需进行架构更改。该方法包含一种称为历史参考的无参数机制,以帮助模型在修改过程中避免重复错误,并在文本生成、数独和图像编辑等任务中表现出改进的性能。
-
新的并行Jacobi解码加速图像生成模型
研究人员开发了一种名为并行Jacobi解码(PJD)的新方法,以加速自回归图像生成模型。该技术在二维空间域中扩展草稿令牌,允许并行细化并减轻错误累积。PJD可以在保持高质量的同时,将各种模型的图像生成速度提高4.8倍至6.4倍。
-
新方法增强了自回归模型的组合泛化能力
研究人员开发了一种新的自回归模型组合方法,其灵感来源于扩散模型中使用的组合策略。该方法基于因子化条件假设,确保每个组件模型都能控制其指定的输出子空间,从而防止干扰。研究表明,在特定条件下,这种组合方法可以保持长度泛化行为,为理解自回归系统中稳定的模型组合和合并提供了原则性的认识。
-
神经网络解决量子蒙特卡洛符号问题
研究人员开发了一种使用神经自回归控制变量的新方法来解决量子蒙特卡洛模拟中的符号问题。该技术采用两个自回归模型,每个模型仅限于正负符号扇区,以创建零均值控制变量。这种无偏可观测量显著降低了方差,提高了模拟的准确性。该方法已证明,即使对于低于 10^-3 的平均符号,标准误差也能降低一个数量级,能量估计误差也能降低三到五倍。
-
NVIDIA 发布 Nemotron-Labs 扩散语言模型,实现更快的文本生成
NVIDIA 推出了名为 Nemotron-Labs Diffusion 的新型扩散语言模型(DLM)系列,旨在克服传统自回归模型的局限性。这些 DLM 通过并行创建多个 token,然后进行迭代优化来生成文本,有望提高速度并能够修改之前的输出。该模型提供 3B、8B 和 14B 参数规模的版本,包括基础模型和指令微调的聊天模型变体,并包含一个视觉语言模型。
-
新研究解决扩散语言模型的局限性
研究人员正在探索改进扩散语言模型(DLM)的新方法,与自回归模型相比,DLM 提供了更快的推理速度。几篇近期论文介绍了增强 DLM 性能的技术,包括用于解耦重掩码的 NAVIRA、用于使用丢弃标记进行检索增强生成的 SARDI,以及用于支持标记揭示的 AXON。另一项研究确定了 DLM 的局限性,例如局部性偏差和来自掩码标记的干扰,并提出了一种无掩码的损失函数来改善上下文理解。此外,一项调查全面概述了 DLM 的格局,涵盖了基本原理、…
-
生成模型在两个不同的训练时间尺度上学习规则
研究人员在生成模型训练中识别出两个不同的时间尺度:生成变得规则有效的点($\tau_{\mathrm{rule}}$)和模型开始重现训练样本的点($\tau_{\mathrm{mem}}$)。两者之间的时间间隔被称为“创新窗口”,它随着数据集的增大而扩大,随着规则复杂度的增加而缩小。这种现象在扩散模型和自回归模型中都得到了观察,它解释了这些模型何时以及如何展现出真正的创新。