实体
LLaVA-1.5-7B
LLaVA-1.5-7B
PulseAugur coverage of LLaVA-1.5-7B — every cluster mentioning LLaVA-1.5-7B across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
苹果研究人员用新的RL框架平衡图像字幕生成
苹果研究人员开发了BalCapRL,一个用于基于强化学习的多模态大语言模型图像字幕生成的新框架。该方法旨在平衡字幕质量的多个维度,包括正确性、参考覆盖率和语言流畅性,而这些维度在现有方法中常常被牺牲。BalCapRL利用奖励解耦归一化和长度条件奖励掩码来优化这些目标,在LLaVA和Qwen等各种基础模型上显示出显著的改进。
-
新框架使用基础模型进行车内对象检测
研究人员开发了一种名为ODAL的新型框架,用于检测和定位车内对象,旨在克服车载系统的计算限制。该框架将处理过程分配给车载和云端资源,从而能够使用强大的视觉基础模型。引入了一个新的基准ODALbench来评估性能,经过微调的LLaVA 1.5 7B模型达到了89%的ODAL分数,比GPT-4o高出近20%,并显著减少了幻觉。
-
研究人员分析多模态机器学习遗忘中的指标不可靠性
研究人员发现,当前用于评估视觉语言模型(VLM)机器学习遗忘的指标存在显著的不可靠性。对36个已遗忘的LLaVA-1.5-7B模型的分析显示,遗忘准确率(Forget Accuracy)和保留准确率(Retain Accuracy)等标准指标常常与激活距离(Activation Distance)和JS散度(JS divergence)等其他指标产生冲突。为解决此问题,研究人员开发了一种新的统一质量评分(UQS),该评分通过根据指标与…