研究人员开发了一个新的基准测试,用于评估视觉语言模型(VLMs)在低比特率压缩图像上的理解能力。研究发现,性能下降是由于压缩过程中的信息丢失和VLMs的泛化失败。为了解决这个问题,提出了一种通用的VLM适配器,该适配器在各种压缩编解码器和比特率下均显示出VLM性能提高10-30%。 AI
影响 这项研究可以提高在需要图像压缩的场景中VLMs的效率和适用性。
排序理由 学术论文,介绍用于评估压缩图像上VLM性能的新基准测试和增强方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →