PulseAugur
实时 17:46:20
实体 Vision-Language Foundation Models

Vision-Language Foundation Models

PulseAugur coverage of Vision-Language Foundation Models — every cluster mentioning Vision-Language Foundation Models across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_106621 ·

    新的FusionRS数据集集成了RGB和红外图像,用于遥感视觉语言模型

    研究人员推出了FusionRS,这是一个新颖的大规模数据集,旨在通过整合RGB和红外图像来推进遥感领域的视觉语言模型。现有模型主要关注RGB数据,忽略了红外图像中存在的宝贵信息,例如热结构和光照不变特征。FusionRS旨在通过提供带有相应场景和红外特定字幕的对齐RGB-红外图像对来弥合这一差距,从而能够训练双模态基础模型以增强地球观测理解。

  2. RESEARCH · CL_70552 ·

    新框架对齐视觉语言和纯视觉AI模型

    研究人员开发了一个名为 GPUA 的新框架,以更好地将视觉语言基础模型 (VLM) 与纯视觉基础模型 (VFM) 对齐。该方法将 VFM 特征视为一种视觉语言,创建正交映射以将 VFM 空间转换为 VLM 语义空间。对齐过程保留了几何信息,并在不需要标签或模型参数更新的情况下弥合了模态差距。实验表明,GPUA 在最小的开销下增强了跨模型兼容性,并提高了下游任务的零样本性能。