实体 Vision Transformers for Dense Prediction

Vision Transformers for Dense Prediction

PulseAugur coverage of Vision Transformers for Dense Prediction — every cluster mentioning Vision Transformers for Dense Prediction across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 23

发布 · 30天

90 天内 0

论文 · 30天

90 天内 23

层级分布 · 90 天

主题

论文 23
其他 8
基础设施 5
模型发布 5
安全 4
产品 1

关系

instance of Vision Transformers 90%
used by Imagenet 1k 90%
instance of Imagenet 1k 90%
used by ImageNet ILSVRC-2012 70%
competes with CNNS 70%
instance of ImageNet ILSVRC-2012 70%
used by CNNS 50%

时间线

2026-05-08 research_milestone A paper introduces Dynamic Mode Decomposition to analyze the internal linear dynamics of Vision Transformer blocks. 来源

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/2 页 · 共 23 条

RESEARCH · CL_30545 · May 13 · 11:35

AI deepfake 探测器易受基于骨干的攻击

研究人员发现，用于检测合成图像的AI模型存在重大漏洞。题为“Backbone is All You Need”的研究表明，攻击者仅凭对 Vision Transformer (ViT) 骨干的了解，就能制造出极具欺骗性的对抗性样本。这种名为代理迭代对抗攻击 (SIAA) 的灰盒攻击方法，其性能接近白盒攻击，削弱了当前深度伪造检测系统的可靠性。研究结果强调了在多媒体取证领域，迫切需要针对此类攻击建立更强大的防御机制。
RESEARCH · CL_29246 · May 12 · 17:59

新的注意力机制旨在高效扩展视觉Transformer

两篇新的研究论文提出了用于视觉Transformer（ViTs）的新型注意力机制，以解决随着图像分辨率增加而出现的二次方复杂度问题。代表性注意力（RPAttention）使用学习到的代表性token来调节通信，允许语义相关的区域无论空间距离如何都能进行交互。弹性注意力核（VECA）采用了一个核心-外围结构，其中patch token仅通过一小组学习到的核心嵌入进行通信，从而实现线性复杂度。
TOOL · CL_29250 · May 12 · 17:27

新的自监督框架提高了半导体检测精度

研究人员开发了AOI-SSL，一个新颖的自监督框架，旨在提高自动化光学检测中焊线半导体语义分割的效率。该框架利用掩码自编码器在小型工业数据集上进行预训练，显著减少了对大量标记示例的需求。该系统还结合了上下文推理方法，通过利用基于相似性的从密集编码器嵌入中检索，可以近乎即时地适应新设备或具有挑战性的样本。
TOOL · CL_28000 · May 11 · 14:43

bViT 使用单块循环实现参数高效的视觉 Transformer

研究人员开发了 bViT，一种新颖的视觉 Transformer 架构，它使用单个 Transformer 块重复应用于图像识别。这种循环方法在 ImageNet-1K 上实现了与标准 ViT 相当的准确度，但参数却少得多。研究表明，ViT 的大部分深度可以通过循环计算来实现，尤其是在表示空间较宽的情况下，从而能够对下游任务进行参数高效的微调。
TOOL · CL_25788 · May 8 · 10:33

ViT 深度计算由线性动力学近似

研究人员通过应用动态模式分解 (DMD) 来探索 Vision Transformers (ViTs) 的内部计算。他们的发现表明，ViT 中的连续块可以被重复应用的单个线性算子近似。该线性算子可以准确预测短跨度内的中间激活，尤其是在早期层和 'cls' token 中，但这种局部保真度并未转化为下游任务的性能提升。
TOOL · CL_22444 · May 8 · 04:00

SSMamba模型通过混合自监督学习增强病理图像分类

研究人员开发了SSMamba，这是一种新颖的、用于病理图像分类的自监督混合状态空间模型。该框架解决了当前模型存在的局限性，例如不同放大倍数下的域偏移、局部-全局关系建模不足以及细粒度敏感性不足。SSMamba集成了Mamba掩码图像建模、方向多尺度模块和局部感知残差模块，可在无需大量外部数据集的情况下改进特征学习。与十个公共ROI数据集上的十一个最先进的病理基础模型以及六个公共WSI数据集上的八种方法相比，该模型表现出卓越的性能。
TOOL · CL_22408 · May 8 · 04:00

新的贝叶斯头部提高了视觉变换器对噪声标签的鲁棒性

研究人员开发了一种新的贝叶斯头部，称为LipB-ViT，旨在提高视觉变换器对标签噪声的鲁棒性。这种架构无关的头部对变分权重强制执行谱归一化，从而实现更好的校准不确定性和减少噪声放大。该方法还引入了评估数据集质量和标签噪声的新颖指标，在检测语义错误分类标签方面优于现有技术。
RESEARCH · CL_21807 · May 7 · 13:45

Spark3R 通过非对称令牌缩减加速三维重建

研究人员开发了 Spark3R，一个旨在加速利用 Vision Transformers 的前馈三维重建模型的新框架。该方法通过采用非对称令牌缩减策略来解决处理大量视频输入带来的计算挑战。这种方法根据查询和键值令牌的不同作用选择性地压缩它们，从而在无需重新训练模型的情况下实现显著的加速。
RESEARCH · CL_21820 · May 7 · 12:14

研究发现：视觉模型中的转喻破坏了基于注意力的可解释性

一篇新发表在arXiv上的研究论文引入了视觉模型中的“视觉转喻”概念，即物体的局部编码了关于整个物体的信息。这种现象破坏了基于注意力的可解释性方法，这些方法假设局部性，即局部信息只应编码其对应的图像区域的信息。研究表明，现代视觉 Transformer 违反了这一假设，使得基于局部的推理和可解释性技术不可靠。
TOOL · CL_20500 · May 7 · 04:00

新的稀疏后门攻击在图像分类器中隐藏了不可检测的妥协

研究人员开发了一种新颖的供应链攻击，称为稀疏后门（Sparse Backdoor），能够将一个可证明不可检测的后门嵌入到预训练的图像分类器中，例如卷积网络和视觉 Transformer。该方法涉及将稀疏扰动注入全连接层，然后通过高斯抖动进行掩盖。这种抖动创建了一个干净的参考分布，使得即使拥有白盒访问权限，也无法在计算上区分后门模型和原始模型。
TOOL · CL_26994 · May 5 · 17:21

RD-ViT 降低视觉分割任务的数据需求

研究人员开发了 RD-ViT，这是一种新颖的视觉Transformer架构，专为语义分割设计，可显著降低数据依赖性。通过采用循环深度方法，使用单个共享块而非深度堆叠的独特层，RD-ViT 即使在训练数据有限的情况下也能表现出强大的性能。该模型集成了自适应计算时间和混合专家等功能，以实现高效和专业化的计算，并以更少的参数实现了具有竞争力的准确性。
TOOL · CL_15656 · May 5 · 04:00

研究人员优化视觉Transformer用于半导体检测

研究人员开发了一个新颖的框架，用于在资源受限的工业环境中优化视觉Transformer（ViTs）的部署。该方法同时优化了架构、Token压缩和位宽精度，解决了ViTs的高计算成本和内存需求问题。将其应用于集成电路芯片封装的半导体缺陷分类，该框架在保持必要精度的同时，实现了超过十倍的吞吐量提升，以及参数量、FLOPs和能耗的十倍降低。
TOOL · CL_15617 · May 5 · 04:00

Colinearity Decay 训练 Vision Transformers 以实现更好的低比特量化

研究人员开发了一种名为 Colinearity Decay (CD) 的新训练技术，以使 Vision Transformers (ViTs) 更易于进行低比特量化。该方法充当结构正则化器，惩罚 Transformer 块内的对齐以减轻有害的激活离群值，同时不影响架构或任务损失。CD 旨在提高量化模型的准确性，同时保持或增强全精度性能，为 ViTs 的高效部署提供了一种方法，且没有推理时间开销。
RESEARCH · CL_14337 · May 4 · 04:00

视觉Transformer利用DCT提升注意力和效率

研究人员开发了一种利用离散余弦变换（DCT）来增强视觉Transformer的新颖方法。该方法包括一种基于DCT的自注意力初始化策略，可提高在CIFAR-10和ImageNet-1K等基准测试上的分类准确性。此外，一种基于DCT的注意力压缩技术通过截断输入块的高频分量来降低计算开销，从而在Swin Transformer等模型中保持性能。
RESEARCH · CL_11881 · May 1 · 04:00

新研究揭示隐式偏差驱动深度学习中的神经缩放定律

研究人员发现了两个新的动力学缩放定律，它们描述了神经网络性能如何随着训练过程中复杂性度量的变化而变化。这些定律在CNN和Vision Transformers等各种架构以及多个数据集上均有观察到，并在收敛时恢复了已建立的测试误差缩放定律。单层感知器的分析工作支持了这些发现，并通过基于梯度的训练引入的隐式偏差来解释这种现象。
RESEARCH · CL_11809 · May 1 · 04:00

HighFM基础模型学习高频地球观测数据

研究人员开发了HighFM，一个旨在从高频地球观测数据中学习的新型基础模型。该模型利用了来自Meteosat Second Generation平台的超过2TB的SEVIRI图像，并改进了具有增强时间编码的SatMAE框架。HighFM旨在通过捕捉卫星数据的短期变化来提高实时监测和应急响应能力，在云层遮蔽和火灾探测任务中表现出改进的性能。
RESEARCH · CL_14095 · Apr 30 · 23:41

Vision Transformers 优化时空植被分类效率

研究人员开发了一种优化的 Vision Transformer (ViT) 方法，用于对植被像素进行时序分类，解决了植物物候监测中的计算挑战。与现有的多时序卷积网络 (CNNs) 相比，这种新方法在计算效率方面有了显著提高，浮点运算量 (FLOPs) 减少了一个数量级。ViT 方法在不考虑时间序列长度的情况下保持恒定的参数复杂度，使其成为监测生态系统和气候变化影响的资源受限系统的可扩展解决方案。
RESEARCH · CL_10156 · Apr 30 · 04:00

研究人员使用视觉Transformer重新审视人工干预式对象检索

研究人员重新审视了人工干预式对象检索（Human-in-the-Loop Object Retrieval）任务，这是一种通过用户反馈迭代查找包含特定对象的图像的方法。该过程涉及系统通过用户标注学习区分相关图像，并由主动学习（Active Learning）循环指导。这种方法对于目标对象小且图像复杂混乱的情况特别有用，论文探讨了使用预训练视觉Transformer（Vision Transformers）的不同表示策略，以平衡全局上下…
RESEARCH · CL_06541 · Apr 28 · 04:00

FOCUS框架增强了用于Vision Transformers的高光谱成像可解释性

研究人员开发了FOCUS，一个旨在增强Vision Transformers（ViTs）在应用于高光谱成像（HSI）时可解释性的新颖框架。该方法解决了理解HSI数据中ViT注意力机制的挑战，而HSI数据通常包含数百个窄波长带。FOCUS引入了类特定的光谱提示和一个可学习的[SINK] token，以生成稳定的空间-光谱显著性图和光谱重要性曲线，而无需梯度反向传播或修改ViT骨干网络。据报道，该框架将带级IoU提高了15％，并将注意力崩…
RESEARCH · CL_06469 · Apr 28 · 04:00

视觉 Transformer 学会反映灵长类视觉皮层的空间层级

研究人员调查了视觉 Transformer (ViTs) 在预训练期间如何在没有明确空间监督的情况下编码空间信息。通过探测 ViT-B/16 模型，他们发现边界结构可以在第 5-6 层解码，而需要更多全局线索的深度信息则在之后两到三层才可解码。ViT 中这种学习到的空间层级反映了在灵长类视觉皮层中观察到的进程。

AI deepfake 探测器易受基于骨干的攻击

新的注意力机制旨在高效扩展视觉Transformer

新的自监督框架提高了半导体检测精度

bViT 使用单块循环实现参数高效的视觉 Transformer

ViT 深度计算由线性动力学近似

SSMamba模型通过混合自监督学习增强病理图像分类

新的贝叶斯头部提高了视觉变换器对噪声标签的鲁棒性

Spark3R 通过非对称令牌缩减加速三维重建

研究发现：视觉模型中的转喻破坏了基于注意力的可解释性

新的稀疏后门攻击在图像分类器中隐藏了不可检测的妥协

RD-ViT 降低视觉分割任务的数据需求

研究人员优化视觉Transformer用于半导体检测

Colinearity Decay 训练 Vision Transformers 以实现更好的低比特量化

视觉Transformer利用DCT提升注意力和效率

新研究揭示隐式偏差驱动深度学习中的神经缩放定律

HighFM基础模型学习高频地球观测数据

Vision Transformers 优化时空植被分类效率

研究人员使用视觉Transformer重新审视人工干预式对象检索

FOCUS框架增强了用于Vision Transformers的高光谱成像可解释性

视觉 Transformer 学会反映灵长类视觉皮层的空间层级