English(EN) Layer-Specific Prompt Fusion Discovery via Differentiable Search in Vision Foundation Models

新的可微分搜索方法增强了视觉Transformer的提示调优

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 04:00

研究人员开发了一种新颖的方法，通过采用可微分架构搜索来优化视觉Transformer（ViTs）中的视觉提示调优。该方法联合优化可学习的提示及其融合方案，引入了仿射变换和交叉注意力等新的融合技术，以及传统的拼接和加法。在34个数据集上的实验表明，与现有的提示调优基线相比，在准确性、延迟和参数效率方面均有持续的改进，突显了提示融合策略在利用ViT层语义方面的重要性。 AI

影响这项研究为将大型视觉模型适应特定任务提供了一种更有效的方法，有望在计算机视觉应用中提高性能并降低计算成本。

排序理由该集群包含一篇学术论文，详细介绍了一种优化现有模型架构的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xi Xiao, Xingjian Li, Yunbei Zhang, Cheng Han, Tianming Liu, Tianyang Wang, Runmin Jiang, Jihun Hamm, Xiao Wang, Min Xu · 2026-06-26 04:00

Layer-Specific Prompt Fusion Discovery via Differentiable Search in Vision Foundation Models

arXiv:2606.26379v1 Announce Type: new Abstract: Visual prompt tuning has emerged as a parameter-efficient fine-tuning approach for adapting large-scale Vision Transformers (ViTs) to downstream tasks. As its learnable prompts are applied in input and feature spaces, prior to joint…

报道来源 [1]

Layer-Specific Prompt Fusion Discovery via Differentiable Search in Vision Foundation Models

相关实体

相关话题