PulseAugur
实时 04:22:21
English(EN) Layer-Specific Prompt Fusion Discovery via Differentiable Search in Vision Foundation Models

新的可微分搜索方法增强了视觉Transformer的提示调优

研究人员开发了一种新颖的方法,通过采用可微分架构搜索来优化视觉Transformer(ViTs)中的视觉提示调优。该方法联合优化可学习的提示及其融合方案,引入了仿射变换和交叉注意力等新的融合技术,以及传统的拼接和加法。在34个数据集上的实验表明,与现有的提示调优基线相比,在准确性、延迟和参数效率方面均有持续的改进,突显了提示融合策略在利用ViT层语义方面的重要性。 AI

影响 这项研究为将大型视觉模型适应特定任务提供了一种更有效的方法,有望在计算机视觉应用中提高性能并降低计算成本。

排序理由 该集群包含一篇学术论文,详细介绍了一种优化现有模型架构的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的可微分搜索方法增强了视觉Transformer的提示调优

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Xi Xiao, Xingjian Li, Yunbei Zhang, Cheng Han, Tianming Liu, Tianyang Wang, Runmin Jiang, Jihun Hamm, Xiao Wang, Min Xu ·

    Layer-Specific Prompt Fusion Discovery via Differentiable Search in Vision Foundation Models

    arXiv:2606.26379v1 Announce Type: new Abstract: Visual prompt tuning has emerged as a parameter-efficient fine-tuning approach for adapting large-scale Vision Transformers (ViTs) to downstream tasks. As its learnable prompts are applied in input and feature spaces, prior to joint…