multi-modal retrieval augmented generation
PulseAugur coverage of multi-modal retrieval augmented generation — every cluster mentioning multi-modal retrieval augmented generation across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
新的“Ground Then Rank”方法提升了知识型视觉问答能力
研究人员开发了一个名为“Ground Then Rank”(GTR)的新框架,以提高知识型视觉问答(KB-VQA)的性能。该方法将实体识别与证据排序解耦,解决了现有跨模态检索增强生成(MM-RAG)方法的局限性。通过首先提示一个跨模态大语言模型(MLLM)从候选列表中识别高置信度实体,然后使用现成的重排序器进行证据选择,GTR在Encyclopedic-VQA和InfoSeek等基准测试中取得了优异的结果,同时降低了计算复杂度。
-
MEG-RAG框架改进了LLM的多模态证据选择
研究人员推出了一种新颖的框架MEG-RAG,旨在改进多模态检索增强生成(MRAG)系统。当前的MRAG模型常常难以准确评估检索到的多模态数据与答案核心含义的相关性。MEG-RAG通过采用一种称为多模态证据基础(MEG)的语义感知度量来解决此问题,该度量量化了证据的实际贡献。这种方法基于语义基础优先考虑高价值内容,从而在M$^2$RAG基准测试的实验中证明了更准确和一致的输出。
-
新框架在多模态AI生成中匿名化人脸,同时保留视觉线索
研究人员开发了一个名为Identity-Decoupled MRAG的新框架,以解决多模态检索增强生成(MRAG)系统中的隐私问题。该框架旨在匿名化检索图像中的人脸,同时不损害对模型推理至关重要的视觉线索。它利用了一个解耦变分编码器、一个用于合成身份替换的拒绝采样器以及一个条件潜在扩散生成器来合成匿名化的人脸。