Vít · PulseAugur

新的对抗性诱饵技术可绕过Vision Transformer防御机制

研究人员开发了一种名为对抗性诱饵的新方法，用于绕过Vision Transformers (ViTs) 中基于注意力的防御机制。这些诱饵是独立优化的图像块，可以将注意力机制（以及随之而来的防御机制）从实际的对抗性区域转移开。该技术将误分类目标与防御规避解耦，使其具有攻击无关性，并易于与现有的对抗性补丁攻击集成。在ImageNet上的实验表明，诱饵可以在保持显著攻击有效性的同时有效地误导注意力分数，突显了使用注意力幅度检测对抗性相关性的局限性。

RESEARCH · CL_133257 · Jul 8 · 00:04

新研究发现：视觉模型无法验证物理因果关系

一篇题为《几何崩溃：视觉模型何时无法验证物理因果关系》的新研究论文介绍了一种受控的反事实方法，称为 Scrambled Edges。该方法将类似边缘的线索注入视觉数据，同时违反物理合理性，例如表面连续性和遮挡顺序。在 NYU Depth v2 和 KITTI 等数据集上，对包括 CNN 和 ViT 在内的各种深度预测器进行的实验表明，与噪声相比，Scrambled Edges 导致与干净预测的偏差显著更大。研究表明，当前的密集预测器难…

RESEARCH · CL_131407 · Jul 7 · 15:51

XRFormer transformer架构增强XRF光谱分析

研究人员开发了XRFormer，这是一种新颖的transformer架构，旨在改进复杂一维X射线荧光（XRF）光谱的分析。该新模型利用多尺度卷积标记器来更好地捕捉光谱细节和多分辨率归纳偏置，在颜料识别任务上优于ViT、SpectralFormer和1D-CNNs等现有模型。XRFormer在颜料混合分离方面也展示了卓越的参数效率，其使用的参数更少，标记分辨率低于SpectralFormer。

RESEARCH · CL_131428 · Jul 7 · 09:52

新的MSA-DCNN框架以数据效率提升医学图像分类性能

研究人员开发了MSA-DCNN，一个新颖的深度学习框架，旨在改进医学图像分类，特别是在数据有限和图像尺度多样的场景下。该框架集成了自适应多尺度采样、精炼显著性检测、学习到的跨尺度融合和自蒸馏，以解决现有方法的局限性。在多个基准和白血病数据集上的评估表明，MSA-DCNN的性能优于各种ViT和CNN基线模型，即使在分布偏移和标签稀缺的情况下，同时使用的参数也更少。

RESEARCH · CL_129278 · Jul 7 · 04:00

AI框架通过可解释推理和多模态数据增强青光眼诊断

研究人员开发了先进的青光眼诊断AI框架，旨在改进不透明的深度学习模型。GlaKG利用知识图谱，通过整合生物标志物、临床规则和图像特征来提供可追溯的推理，在分类和风险分层方面实现了高精度。GlaBoost采用多模态梯度提升方法，结合眼底图像嵌入、基于文本的评估和结构化生物标志物，以增强可解释的预测。另一个框架使用带有堆叠集成（stacking ensemble）的Vision Transformer (ViT)来处理眼底图像和临床数据，…

TOOL · CL_129252 · Jul 7 · 04:00

新的混合CNN-ViT框架提高了恶意软件分类的准确性

研究人员开发了ThreatVisionAI，一个用于通过基于图像的分析对恶意软件家族进行分类的新型混合框架。该系统结合了卷积神经网络（CNN）和视觉Transformer（ViT），以提取全面的特征集，包括空间、频域和全局关系信息。该框架在Malimg数据集上表现出色，准确率达到98.01%，加权F1分数达到0.9742，在区分视觉上相似或少数恶意软件家族方面尤其有效。

TOOL · CL_129165 · Jul 7 · 04:00

新框架揭示了几何一致性是稳定扩散模型（stable diffusion models）的关键

研究人员开发了一个统一的框架来分析几何变换对 UNets、ViTs 和 DiTs 等扩散模型架构的影响。通过将二面体群元素应用于中间隐藏状态，他们观察到几何一致的变换增强了特征稳定性，而不一致的变换则会导致特定于架构的失败。这项研究将几何一致性确立为稳定视觉和扩散模型中空间结构隐藏状态干预的关键原则，其研究结果得到了 Stable Diffusion 2.1、ViTs 和 DiTs 分析的支持。

TOOL · CL_129155 · Jul 7 · 04:00

神经符号框架通过知识图谱增强植物表型分析

研究人员开发了 PhenoNEST，一个新颖的神经符号框架，用于构建植物表型分析和性状发现的多模态知识图谱。该系统专注于小麦 (Triticum aestivum)，通过从田间笔记中提取实体和关系，使用 PlantDeBERTa 将其与标准化本体对齐，并使用视觉语言模型和 প্রস্তাবে-分割 ViT 对图谱进行视觉接地。该框架能够实现田间笔记的自动化审计、时间性胁迫监测以及育种者精确的空间性状定位，并在 WisWheat 样本上进行了验证。

TOOL · CL_129133 · Jul 7 · 04:00

新的Sparse-Reslim方法提高了天气预报的准确性和效率

研究人员开发了一种名为Sparse-Reslim的新方法，以提高基于Vision Transformer (ViT)的天气预报模型的效率。这个无参数模块仅选择性地处理昂贵的Transformer块的25%的空间Token，并将它们视为残差更新。这种方法保持了所有网格单元的完整性，并避免引入新的参数或融合层。Sparse-Reslim在各种分辨率和模型系列中都显示出更高的预测准确性，同时显著减少了训练时间和内存使用。

TOOL · CL_123363 · Jul 3 · 04:00

Drive-JEPA框架通过新颖的视频预训练推动端到端自动驾驶发展

研究人员推出Drive-JEPA，一个结合视频联合嵌入预测架构（V-JEPA）和多模态轨迹蒸馏的端到端自动驾驶新框架。该方法将V-JEPA应用于海量驾驶视频的ViT编码器预训练，生成对轨迹规划至关重要的预测表示。该系统还包含一个以提案为中心的规划器，它蒸馏各种模拟器生成和人类轨迹，并使用动量感知选择机制来确保稳定和安全的驾驶行为。在NAVSIM基准测试中，Drive-JEPA取得了新的最先进成果。

TOOL · CL_123301 · Jul 3 · 04:00

新的FoundDP框架增强了双像素深度估计

研究人员开发了FoundDP，一个增强了双像素（DP）相机度量深度估计的新框架。该方法将源自DP成像的度量深度与来自Vision Transformer（ViT）基础模型的结构先验相结合。FoundDP通过对齐ViT特征来解决纹理缺失或低对比度区域的局限性，以减轻DP散焦模糊造成的退化，从而提高结构保真度和度量精度。

TOOL · CL_123341 · Jul 2 · 17:59

PointDiT 通过像素空间扩散 Transformer 简化 3D 重建

研究人员开发了 PointDiT，一种新颖的像素空间扩散 Transformer，可简化单图像 3D 重建。该模型基于标准的 ViT 架构，并以 DINOv3 图像 token 为条件，直接在 3D 点图块上运行。PointDiT 通过超越更复杂的基于潜在空间的扩散模型和混合替代方案，在锐利的几何结构和提高透明物体等挑战性区域的鲁棒性方面取得了最先进的成果。

TOOL · CL_123326 · Jul 2 · 14:34

ViT 分割方法在高压缩下的对比研究

一篇新的研究论文探讨了在极高压缩率和损坏输入数据下，使 Vision Transformers (ViTs) 在语义分割任务中更高效的方法。该研究比较了两种主要方法：结构化剪枝，即移除 ViT 架构内的冗余组件；以及 Token 缩减，即减少输入 Token 的数量。研究结果表明，虽然 Token 缩减在较低压缩水平下有效，但在严重压缩下性能会显著下降，而结构化剪枝则表现出更稳定的性能曲线。该研究提出了一种结合适度剪枝和 Token …

TOOL · CL_123282 · Jul 2 · 02:57

新的 DRDN 方法增强了 ViT 类增量学习

研究人员开发了一种名为解耦表示动态网络 (DRDN) 的新方法，以改进 Vision Transformer (ViT) 模型中的类增量学习 (CIL)。DRDN 通过使用掩码图像建模 (MIM) 来保留骨干网络中的通用视觉结构，并通过分层任务令牌扩展来减少任务间干扰，从而解决了跨任务混淆和欠优化的共享表示等挑战。在 CIFAR100-B0 上进行 10 个步骤的实验中，DRDN 实现了 77.19% 的平均准确率，优于 DKT 和 …

TOOL · CL_131687 · Jul 2 · 00:00

PointDiT 使用像素空间扩散 Transformer 简化 3D 几何估计

研究人员开发了 PointDiT，一种新颖的像素空间扩散 Transformer，可简化从单个图像进行 3D 几何估计。该模型利用标准的 ViT 架构，并处理基于 DINOv3 图像 token 的 3D 点图块。PointDiT 在性能上优于更复杂的基于潜在空间（latent-based）的模型，尤其是在模糊区域，并且是从头开始训练的，无需点图 tokenizers。

TOOL · CL_121081 · Jul 1 · 09:35

新的LUMA适配器可对图像分割骨干网络进行公平的基准测试

研究人员推出了一种新的轻量级通用掩码适配器LUMA，旨在标准化图像分割Transformer骨干网络的基准测试。该适配器充当一种与骨干网络无关的头部，通过将任何骨干网络视为黑盒特征提取器来实现公平比较。使用LUMA进行的实验表明，预训练目标（而非架构）是分割质量的主要驱动因素，并且传统的“高效”令牌混合器在高分辨率下并未提供效率优势。

TOOL · CL_119475 · Jul 1 · 04:00

新的自监督音频模型BEST-RQ-2改进了迁移学习

研究人员推出了BEST-RQ-2，这是自监督音频表示学习的一项进展。这种新方法采用两步预训练方法，将上下文化和预测阶段分开。通过为未遮蔽区域使用ViT上下文编码器，为遮蔽区域使用轻量级预测器，BEST-RQ-2在X-ARES和XARES-LLM等基准测试上表现优于单阶段方法，同时保持可比的推理计算。该模型的代码和检查点均公开可用。

TOOL · CL_118851 · Jun 30 · 19:56

研究人员通过零乘法二值化模型潜在表示，实现了更高的准确率

一位研究人员开发了一种将基础模型潜在表示压缩到1比特空间的方法，从而在分类和路由等下游任务中提高了准确率。该技术绕过了传统的基于乘法的计算，而是使用条件加法和减法进行推理，这只需要最少的硬件资源和能源。研究人员认为，极端的二值化是一种强大的正则化方法，可以提高性能，并正在寻求有关此方法潜在的统计陷阱或已知现象的反馈。

RESEARCH · CL_119357 · Jun 30 · 16:43

FlexViT：FPGA加速器提升边缘视觉Transformer性能

研究人员开发了FlexViT，这是一款灵活的基于FPGA的加速器，旨在提高边缘设备上视觉Transformer (ViT) 模型的效率。该加速器通过将现代ViT的异构架构（结合了卷积层和全连接层）映射到一个统一的INT8 GEMM引擎上，解决了其异构架构带来的挑战。FlexViT采用双模式数据流和深度优先分块策略来优化性能并降低内存带宽需求。评估显示，FlexViT在加速器执行的层上可实现高达2.74倍的加速，与纯CPU执行相比，整体…

TOOL · CL_115714 · Jun 29 · 04:00

新的优化方法自适应动量以加速神经网络训练

研究人员开发了一种新的神经网络优化方法，该方法根据每个参数的动能来调整动量系数。这种方法借鉴了连续时间动力学和结构动力学的立方阻尼，旨在与Adam等标准方法相比，提高稳定性和收敛速度。所提出的方案在涉及 Vision Transformers (ViT)、BERT 和 GPT-2 的任务上，已证明具有稳健性，并且性能与Adam相当或更优，理论结果支持其指数收敛。