Q-Former
PulseAugur coverage of Q-Former — every cluster mentioning Q-Former across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
研究发现 Video-LLM 在时间信息流方面存在困难
研究人员发现,视频大型语言模型(Video-LLMs)在处理时间信息方面存在一个重大的瓶颈,这阻碍了它们理解视频播放方向的能力。虽然以视频为中心的编码器可以有效地捕捉时间信号,但标准的 Video-LLM 架构通常无法可靠地传递这些信息。研究强调,投影层是一个关键组成部分,某些设计会破坏时间数据,而保留时间的 MLP 投影可以改善信息流。通过优化编码器、投影器并纳入特定的监督,一个新的 Video-LLM 在时间推理任务上达到了接近人类的准确率。
-
CSMCIR框架通过对称对齐增强组合图像检索
研究人员推出了一种新颖的CSMCIR框架,旨在通过解决现有方法中表示空间的碎片化问题来改进组合图像检索(CIR)。该方法利用多级思维链(CoT)提示策略为目标图像生成语义兼容的字幕,从而建立模态对称性。此外,CSMCIR采用对称双塔架构,并使用共享参数的Q-Former进行一致的跨模态编码,以及一个基于熵的记忆库来提供高质量的负样本。
-
ViBE framework maps visual stimuli to M/EEG brain signals
Researchers have developed ViBE, a new framework for brain encoding that translates visual stimuli into magnetoencephalography (MEG) and electroencephalography (EEG) signals. The system utilizes a spatio-temporal convol…