WikiCLIP 以 LLM 嵌入提供高效的视觉实体识别

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-03 04:00

研究人员推出 WikiCLIP，一个新颖的对比学习框架，用于高效的开放域视觉实体识别。该方法利用大型语言模型嵌入，并通过视觉引导知识适配器增强，以在补丁级别对齐文本和视觉信息。WikiCLIP 在 OVEN 等基准测试中展示了显著的性能提升，在未见过的数据上实现了 16% 的增益，同时与现有生成模型相比，推理延迟大大降低。 AI

影响该框架提供了一种更具计算效率的视觉实体识别方法，有可能使将图像链接到百科知识的 AI 系统的部署更加广泛。

排序理由该集群描述了一篇详细介绍新模型及其在基准测试中性能的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He · 2026-07-03 04:00

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

arXiv:2603.09921v4 Announce Type: replace Abstract: Open-domain visual entity recognition (VER) seeks to associate images with entities in encyclopedic knowledge bases such as Wikipedia. Recent generative methods tailored for VER demonstrate strong performance but incur high comp…

报道来源 [1]

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

相关实体

相关话题