两篇新的arXiv综述全面概述了计算机视觉中的视觉推理任务。第一篇论文详细介绍了知识驱动的视觉问答(KB-VQA)系统,按知识表示、检索和推理对其进行分类,并强调了大型语言模型(LLMs)对该领域的影响。第二篇综述提供了视觉推理的分类,将其分为五种类型:关系型、符号型、时间型、因果型和常识型,并考察了包括LLMs和多模态大型语言模型(MLLMs)在内的各种方法。两篇论文都指出了持续存在的挑战,并为推进这些AI能力勾勒了未来的研究方向。 AI
影响 这些综述整合了当前的研究,确定了关键挑战,并为视觉推理和知识驱动的VQA系统提出了未来的方向。
排序理由 两篇在arXiv上发表的学术论文对特定的AI研究领域进行了全面的综述。
- arXiv
- Hugging Face
- Jiaqi Deng
- Knowledge-based Vision Question Answering
- large-language models
- multimodal large language models
- Vision Question Answering
- Zhenyu Yu
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →