研究人员开发了一种新颖的方法,通过利用多模态大语言模型(MLLMs)来改进在未见过的真实世界场景中的行人重识别(Re-ID)。与专注于训练通用编码器的传统方法不同,这项新技术在推理过程中增强了重排过程。MLLM在Re-ID数据上进行微调,然后用于计算域无关的距离度量,显著提升了在各种基准测试中的重排性能。 AI
影响 这项研究可能导致在多样化的真实世界环境中,更强大、更准确的行人识别系统。
排序理由 该集群包含一篇详细介绍新研究方法和实验结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Generalizable Person Re-Identification
- Hugging Face
- multimodal large language model
- Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond
- Multimodal LLM-Empowered Re-Ranking for Generalizable Person Re-Identification
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →