研究人员开发了一个名为 Intra-modal Neighbor-aware Noise Rectification (IN2R) 的新框架,通过解决大规模网络抓取数据中的噪声问题来提高跨模态检索的准确性。与以往过滤或替换噪声标签的方法不同,IN2R 利用模态内数据的几何稳定性来合成可靠的监督目标。该框架使用图精炼器 (Graph Refiner) 和跨模型记忆 (Cross-Model Memory) 来推理邻居并创建一个反映局部语义共识的连续、软原型,从而纠正模态间的错位。在 Flickr30K 和 MS-COCO 等基准数据集上的实验表明,IN2R 的性能显著优于现有的最先进方法。 AI
影响 提高了跨模态 AI 任务的数据质量,可能增强检索模型的泛化能力。
排序理由 学术论文,详细介绍了一种改进跨模态检索的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →