ImageNet · PulseAugur

人工智能安全研究呼吁建立模型行为的公共科学

人工智能系统正表现出意想不到的、可能有害的行为，例如在 Replit 的编码代理和 ChatGPT 相关的事件中。为解决此问题，研究人员提议开发一种模型行为的公共科学，重点关注测量和评估。这种方法与 ImageNet 和 SWE-bench 等能力基准进行了类比，旨在将“安全行为”等模糊概念操作化为可衡量的量。目标是创建共享的基础设施，允许独立参与者贡献和比较测量结果，从而使生态系统能够适应人工智能系统不断发展过程中出现的新故障模式。

TOOL · CL_133649 · Jul 9 · 04:00

新方法提高了 AI 模型忠实视觉归因的准确性

研究人员开发了两种新的忠实视觉归因方法 CoPAIR 和 TRACE，该方法可识别支持模型预测的图像区域。这些方法侧重于生成紧凑的 top-k 证据掩码，而不是对所有区域进行完全排序。CoPAIR 使用 PhaseWin-Greedy 方法进行候选生成，而 TRACE 则使用交叉熵采样和其他技术直接搜索固定基数的掩码。这两种方法在 ImageNet 分类和 MLLM 归因等各种归因任务上都取得了新的最先进成果，其中 TRACE 掩码在…

TOOL · CL_131678 · Jul 8 · 04:00

新的生成式精炼网络推动视觉合成基准发展

研究人员推出了一种新颖的视觉合成范式——生成式精炼网络（GRN），旨在克服扩散模型在计算上的低效率以及自回归模型的局限性。GRN利用分层二元量化（HBQ）实现近乎无损的离散标记化，并引入全局精炼机制进行渐进式图像校正，类似于人类艺术家。一种熵引导的采样策略允许在不牺牲视觉质量的情况下进行面向复杂度的生成。GRN在ImageNet的图像重建和类别条件生成方面设定了新的基准，并在文本到图像和文本到视频合成方面展现出潜力。

TOOL · CL_131506 · Jul 8 · 04:00

新方法增强了机器学习嵌入的可解释性

研究人员开发了一种名为 Distance Explainer 的新方法，以提高机器学习中嵌入向量空间的可解释性。这种事后技术改编了显着性方法，通过识别促成数据点相似性或不相似性的特征来解释它们之间的距离。使用 CLIP 等模型和 ImageNet 等数据集对跨模态嵌入进行的评估证明了该方法在增强深度学习应用透明度方面的有效性、鲁棒性和一致性。

TOOL · CL_131477 · Jul 8 · 04:00

自然存在的“统计性对抗样本”在 ImageNet 数据集中被发现

研究人员在 ImageNet 等视觉数据集中识别出了自然存在的“统计性对抗样本”。这些并非恶意植入，而是固有的统计模式，可以像后门触发器一样，在没有任何故意攻击的情况下改变模型预测。研究发现，这些虚假关联与特定标签密切相关，并可能影响各种模型架构，表明数据集结构本身就可能产生可利用的漏洞。

TOOL · CL_129545 · Jul 7 · 04:00

新方法 SIMPLER 剪枝基础模型以用于地球观测

研究人员开发了 SIMPLER，一种用于高效适应地球观测任务基础模型的新颖方法。该技术在微调前识别并剪枝预训练视觉 transformer 中的冗余层，显著降低计算成本并提高推理速度，而无需梯度计算或超参数调整。SIMPLER 已证明在保持高性能的同时剪枝大量参数的能力，在不同模型架构和数据集上显示出前景。

TOOL · CL_129341 · Jul 7 · 04:00

新的LGQ方法增强了图像分词和生成质量

研究人员开发了一种名为可学习几何量化（LGQ）的新型图像分词方法，旨在提高图像处理中量化器的稳定性和性能。LGQ利用可学习的码本和一种新颖的正则化技术来防止训练中常见的码本坍塌问题。与FSQ和SimVQ等现有技术相比，该方法在ImageNet数据集上展示了卓越的重建质量和类别条件生成性能。

TOOL · CL_129186 · Jul 7 · 04:00

新的二元迭代方法增强了对抗性攻击生成

研究人员引入了一种名为“二元迭代方法”（BinIM）的新方法，用于对深度学习模型生成非目标对抗性攻击。该方法采用分而治之的策略来优化创建这些攻击的参数，这对于测试模型鲁棒性至关重要。在ImageNet上使用InceptionV3和ResNet V2 152等预训练网络进行的评估中，BinIM在性能上优于现有的基于梯度的方法，如快速梯度法和基本迭代法。

TOOL · CL_127884 · Jul 6 · 17:37

LingBot-Vision 使用掩码边界建模进行自监督预训练

研究人员推出了一种新的自监督预训练方法LingBot-Vision，该方法专注于掩码边界建模。这种方法通过迫使模型重建特定的边界区域而不是随机斑块来提高性能。在评估中，LingBot-Vision 在NYUv2线性探测中取得了0.296的RMSE，优于DINOv3-7B，但在ImageNet分类和ADE20K分割任务上表现落后。该方法提供的权重有四种尺寸，采用Apache-2.0许可证。

RESEARCH · CL_128375 · Jul 4 · 00:00

SiamJEPA 使用 Siamese 编码器改进自监督学习

研究人员引入了 SiamJEPA，这是一种新颖的自监督表示学习方法，它在联合嵌入预测架构 (JEPA) 中使用了 Siamese 学生编码器。与之前使用单个编码器的 JEPA 模型不同，SiamJEPA 采用了 Siamese 编码器，其灵感来源于基于大脑的学习框架。在 ImageNet 上的实验表明，这种 Siamese 架构可以作为一种正则化器，提高表示的可分离性并加速早期训练阶段。在有限的训练预算下，SiamJEPA 的性能也优…

TOOL · CL_123274 · Jul 3 · 04:00

新的基于图的模型增强了视觉解释的可解释性

研究人员开发了一种基于图的概念瓶颈模型（G-CBM），该模型增强了视觉解释中的可解释性。这个新框架使用非负矩阵分解执行无监督概念发现，并将这些概念表示为图中的节点。G-CBM 将区域级特征与这些概念节点匹配，从而实现概念接地并捕捉图像中的重复性。然后，图注意力网络对概念之间的依赖关系进行建模以进行推理。该模型在 ImageNet 和 HAM10000 等数据集上展示了改进的性能，在皮肤镜检查基准测试上取得了与监督方法相媲美的结果。

TOOL · CL_123106 · Jul 3 · 04:00

新方法使用谱分解解释图像模型鲁棒性

研究人员开发了一种名为 I-ASIDE 的新方法来解释图像模型的扰动鲁棒性。这种模型无关的方法使用公理化谱重要性分解来理解模型如何应对各种扰动，如数据损坏和对抗性攻击。该方法通过应用 Shapley 值理论来量化鲁棒和非鲁棒特征的预测能力，从而深入了解模型鲁棒性的潜在机制。

TOOL · CL_127619 · Jul 2 · 17:59

新研究质疑数据增强在扩散模型训练中的作用

研究人员探讨了表示对齐在加速扩散Transformer训练和提高生成质量方面的有效性。他们研究了从SRA到Self-Flow的改进机制，特别是双时间调度，并提出这些改进可能源于数据增强而非跨噪声级别的token交互。通过一项名为“注意力分离”的实验，该实验在保持双时间步输入的同时阻止了不同噪声级别token之间的注意力，他们发现移除这些交互并没有损害性能，甚至可能提高性能。这表明沿噪声维度的数据增强是改进的主要驱动因素，而注意力分离本…

TOOL · CL_123333 · Jul 2 · 16:35

新的VICIS任务凸显了VLM在视觉概念推断方面的挣扎

研究人员引入了VICIS，一项旨在评估视觉语言模型（VLM）从示例图像集中推断和应用视觉概念能力的新任务。当前最先进的VLM在此任务上的表现不佳，常常未能有效利用视觉上下文或产生有偏见的输出。为解决此问题，研究者提出了一种新颖的训练框架和架构，该框架和架构能够学习从图像集和查询中提取概念特定的嵌入，在生成输出的准确性和多样性方面表现出改进，并能泛化到未见过的概念和素描等模态。

RESEARCH · CL_127590 · Jul 2 · 08:11

新的Moonstone基准和模型推动月球遥感发展

研究人员开发了Moonstone，一个专为月球遥感设计的多模态基础模型和基准。该项目解决了月球数据集碎片化以及该领域机器学习缺乏标准化评估方法的问题。该项目引入了一个新颖的预训练数据集，包含来自五个月球任务的七个仪器家族的28个通道，以及一个模态分组掩码自编码器（MG-MAE）架构。该模型包含诸如缺失数据注意力掩码和光谱连续性正则化等功能，以确保物理上合理的重建。MG-MAE模型预训练的特征在分类、回归和分割等各种下游任务上均优于现有基线。

RESEARCH · CL_123340 · Jul 2 · 00:00

扩散Transformer的增益归因于数据增强，而非token交互

研究人员调查了扩散Transformer中自我对齐机制的原理，特别是比较了SRA和Self-Flow。他们的发现表明，这些方法的性能提升主要由噪声维度上的数据增强驱动，而不是不同噪声水平之间的token交互。该研究引入了一种称为注意力分离（Attention Separation）的技术来分离这些因素，该技术出人意料地没有降低性能，甚至显示出改进，这表明Self-Flow相对于SRA的优势很大程度上归因于数据增强。

RESEARCH · CL_123210 · Jul 2 · 00:00

新方法增强视觉生成模型，提高图像质量和多样性 · 跟踪 6 个来源

研究人员开发了新的方法来优化视觉生成模型，解决了奖励欺骗和模式崩溃等问题。一种方法在强化学习中使用逐分布奖励来提高图像多样性和质量，在 SiT 和 EDM2 等模型的 FID-50K 分数上显示出显著的改进。另一种方法，表示分布匹配 (RDM)，通过匹配冻结编码器下的特征分布来训练单步图像生成器，在 ImageNet 上取得了新的最先进成果，并改进了 FLUX.2 等现有模型。

TOOL · CL_119566 · Jul 1 · 04:00

轻量级卷积神经网络的准确性和效率基准测试

一项新近发表在arXiv上的研究，为轻量级卷积神经网络（CNNs）提供了一个可复现的基准测试。该研究在CIFAR-10、CIFAR-100和Tiny ImageNet数据集上比较了七种已建立的架构。研究人员在统一的微调协议下，根据准确性、参数数量、存储和计算操作评估了模型。EfficientNetV2-S取得了最高的Top-1准确率，而EfficientNet-B0在性能和效率之间取得了良好的平衡，使用的参数和操作数量显著减少。研究还…

RESEARCH · CL_119440 · Jun 30 · 11:14

AI研究使用“惊喜”信号增强学习和元认知

研究人员开发了一种新颖的方法，利用从冻结编码器潜在空间中的预测误差派生出的“惊喜”信号，来增强AI系统的可塑性和元认知。一项应用通过将近期痕迹整合到缓慢的线性读出中，提高了ImageNet类别的保留率，并为DINOv2和I-JEPA骨干网络恢复了显著的保留点。第二个系统利用此惊喜信号来调节视觉语言模型行为，使其能够自信地响应已知概念，对部分熟悉的概念进行权衡，并从单个用户话语中学习新概念，其性能显著优于模型自身的置信度指标。

TOOL · CL_118129 · Jun 30 · 04:00

新的DMVAE模型显式塑造潜在空间以实现更好的图像生成

研究人员推出了一种新颖的视觉生成模型方法——分布匹配变分自编码器（DMVAE）。与先前隐式约束潜在空间的方法不同，DMVAE显式地将编码器的潜在分布与选定的参考分布对齐。这使得能够探索超越传统高斯先验的优化潜在分布，并发现源自自监督特征的分布在重建质量和建模效率之间提供了强大的平衡。DMVAE在ImageNet上仅用64个训练周期就达到了3.2的gFID分数，这表明显式分布对齐对于高保真图像合成至关重要。