实体
Vision Transformers for Dense Prediction
Vision Transformers for Dense Prediction
PulseAugur coverage of Vision Transformers for Dense Prediction — every cluster mentioning Vision Transformers for Dense Prediction across labs, papers, and developer communities, ranked by signal.
总计 · 30天
23
90 天内 23
发布 · 30天
0
90 天内 0
论文 · 30天
23
90 天内 23
层级分布 · 90 天
主题
关系
时间线
- 2026-05-08 research_milestone A paper introduces Dynamic Mode Decomposition to analyze the internal linear dynamics of Vision Transformer blocks. 来源
最近 · 第 2/2 页 · 共 23 条
-
KAConvNet将Kolmogorov-Arnold定理与CNN集成用于视觉任务
研究人员推出了一种新颖的卷积神经网络架构KAConvNet,它集成了Kolmogorov-Arnold表示定理。这种新方法旨在通过利用边缘上的可学习激活和节点上的求和来增强可解释性和效率,超越传统的MLP。KAConvNet在与当前的Vision Transformers和CNNs的竞争性性能方面表现出色,为计算机视觉任务提供了一个理论上可靠的替代方案。
-
Vision Transformers 为人脸图像质量评估提供新方法
两篇新研究论文提出了使用 Vision Transformers (ViTs) 评估人脸图像质量的新方法。第一篇论文 ATTN-FIQA 利用预训练 ViTs 的预 softmax 注意力分数,无需额外训练即可推断图像质量,其假设是注意力幅度与面部特征的独特性相关。第二篇论文 EX-FIQA 探索了 ViTs 中间表示的效用,提出了一种分数融合框架,该框架结合了来自多个网络深度的预测,以提高质量评估的准确性和效率。
-
对抗训练中的良性过拟合可增强 Vision Transformer 的鲁棒性
研究人员对 Vision Transformers (ViTs) 的对抗训练进行了理论分析,发现在特定条件下,它可以实现接近于零的鲁棒训练损失和泛化误差。这种之前在 CNN 中观察到的防御策略,有助于 ViTs 即使在发生过拟合时也能保持强大的泛化能力,这种现象被称为良性过拟合。在合成和真实世界数据集上的实验支持了这些理论结论。