实体 Vision-Language Foundation Models

Vision-Language Foundation Models

PulseAugur coverage of Vision-Language Foundation Models — every cluster mentioning Vision-Language Foundation Models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_106621 · Jun 15 · 17:49

新的FusionRS数据集集成了RGB和红外图像，用于遥感视觉语言模型

研究人员推出了FusionRS，这是一个新颖的大规模数据集，旨在通过整合RGB和红外图像来推进遥感领域的视觉语言模型。现有模型主要关注RGB数据，忽略了红外图像中存在的宝贵信息，例如热结构和光照不变特征。FusionRS旨在通过提供带有相应场景和红外特定字幕的对齐RGB-红外图像对来弥合这一差距，从而能够训练双模态基础模型以增强地球观测理解。
RESEARCH · CL_70552 · Jun 3 · 03:02

新框架对齐视觉语言和纯视觉AI模型

研究人员开发了一个名为 GPUA 的新框架，以更好地将视觉语言基础模型 (VLM) 与纯视觉基础模型 (VFM) 对齐。该方法将 VFM 特征视为一种视觉语言，创建正交映射以将 VFM 空间转换为 VLM 语义空间。对齐过程保留了几何信息，并在不需要标签或模型参数更新的情况下弥合了模态差距。实验表明，GPUA 在最小的开销下增强了跨模型兼容性，并提高了下游任务的零样本性能。

新的FusionRS数据集集成了RGB和红外图像，用于遥感视觉语言模型

新框架对齐视觉语言和纯视觉AI模型