PulseAugur
实时 11:20:49

Vision Transformer 不稳定性通过相位边缘化技术得到解决

研究人员开发了一种名为相位边缘化(Phase Marginalization)的新技术,以解决 Vision Transformer(ViTs)在用于密集预测任务时出现的稳定性问题。该方法通过评估不同的块网格相位并聚合结果来解决由 ViTs 中固定块网格引起的相位依赖性不稳定性。一种无需训练的变体,即具有 K=4 的均匀相位边缘化(Uniform Phase Marginalization),在分割、深度估计和局部匹配任务上显示出适度的改进,与标准方法相比,计算成本没有显著增加。 AI

影响 引入了一种提高 Vision Transformer 在分割等密集预测任务中的稳定性和准确性的方法。

排序理由 该集群包含一篇详细介绍改进 Vision Transformer 性能的新技术的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · O\u{g}uzhan Ercan ·

    Vision Transformers 中 Patch-Grid 不稳定性的相位边缘化

    arXiv:2606.08132v1 Announce Type: cross Abstract: Vision Transformers operate on fixed patch grids, which can introduce phase-dependent instability for dense prediction: changing the patch partition can change the token evidence available to a pixel, especially near boundaries. W…