实体 LLaVA-1.5-7B

LLaVA-1.5-7B

PulseAugur coverage of LLaVA-1.5-7B — every cluster mentioning LLaVA-1.5-7B across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 9

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 9

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

TOOL · CL_156427 · Jul 22 · 04:00

使用面部空想性错觉诊断探测视觉模型的偏见

研究人员开发了一个新的诊断框架，利用面部空想性错觉来评估视觉模型在面对模糊视觉输入时的行为。该研究分析了包括视觉-语言模型（VLMs）、纯视觉分类器和目标检测器在内的六个模型，以了解它们的决策过程。研究结果表明，LLaVA-1.5-7B等VLMs倾向于表现出语义过度激活，经常将非人脸图案误解为人脸，特别是带有负面情绪的图案。相比之下，ViT等纯视觉分类器在没有明显偏见的情况下表现出不确定性，而目标检测器则通过保守的先验知识保持低偏见。
TOOL · CL_114371 · Jun 20 · 03:53

视觉语言模型在课堂参与度识别方面表现不佳

一项新的基准研究评估了五种视觉语言模型（VLMs）在零样本设置下识别课堂参与度的能力。包括GPT-4o和LLaVA-1.5-7B在内的模型在识别单个学生参与度方面表现不佳，呈现出随机表现和类别坍塌。然而，场景级分类显示出更大的潜力，CLIP和GPT-4o在提供特定评分标准提示时达到了中等准确率。研究还强调了实际部署的挑战，例如GPT-4o的安全过滤器拒绝了大量涉及学生面部的请求。
RESEARCH · CL_95864 · Jun 16 · 09:22

新研究解决 LVLM 幻觉问题并改进视觉-语言学习

研究人员正在开发新方法来提高大型视觉-语言模型 (LVLM) 的鲁棒性和能力。一种名为 SeeMe 的方法侧重于通过工程化视觉标记来抑制不相关信息同时保留关键证据，从而减轻幻觉。另一个框架 Text as Partial Constraint (TPC) 旨在通过将多视图字幕视为不完整监督并提炼共识语义核心来创建更可靠的表示。此外，还在探索像 HiMe 这样的新架构，用于长视域的视觉-语言-动作控制，将具身智能解耦为分层组件，以实现更…
RESEARCH · CL_79207 · Jun 7 · 11:11

新的剪枝技术有望实现更小的模型和更快的训练速度

研究人员开发了新的神经网络和数据集剪枝方法以提高效率。DCP-Prune 专注于视觉模型的超低 token 剪枝，以显著更少的 token 实现高性能。Squeeze-Release 提供迭代剪枝和结构最小化，模型压缩高达 39 倍，同时保持准确性。此外，OrderDP 和一个基于图的框架提供了理论上保证的无损动态数据剪枝，在不牺牲性能的情况下将训练速度提高了 40% 以上。
RESEARCH · CL_65854 · Jun 1 · 12:24

新方法大幅削减VLM视觉Token，提升效率

研究人员开发了三种新方法，可显著压缩大型视觉语言模型（VLM）使用的视觉Token，旨在降低计算开销并提高推理速度。InfoMerge利用时间指纹差异和内容感知分配，ETC采用任务感知视觉信息蒸馏，EvoCut分析多层Token演化。这些方法在Token数量上实现了大幅削减，其中一些在保持超过98%的原始性能的同时实现了显著的加速。
TOOL · CL_56496 · May 28 · 04:00

AI 微调用于桥梁损坏评估和维修优先级评分

研究人员开发了一种方法，利用微调的视觉语言模型（VLMs）来自动化桥梁损坏评估和维修优先级评分。通过使用精选的桥梁图像和检查记录数据集训练 LLaVA-1.5-7B，该模型可以生成损坏的自然语言描述。然后，一个基于规则的系统利用这些描述来计算维修优先级指数，旨在减少人工检查员之间的差异并协助老龄化工程师。
TOOL · CL_27337 · May 11 · 00:00

苹果研究人员用新的RL框架平衡图像字幕生成

苹果研究人员开发了BalCapRL，一个用于基于强化学习的多模态大语言模型图像字幕生成的新框架。该方法旨在平衡字幕质量的多个维度，包括正确性、参考覆盖率和语言流畅性，而这些维度在现有方法中常常被牺牲。BalCapRL利用奖励解耦归一化和长度条件奖励掩码来优化这些目标，在LLaVA和Qwen等各种基础模型上显示出显著的改进。
TOOL · CL_20781 · May 7 · 04:00

新框架使用基础模型进行车内对象检测

研究人员开发了一种名为ODAL的新型框架，用于检测和定位车内对象，旨在克服车载系统的计算限制。该框架将处理过程分配给车载和云端资源，从而能够使用强大的视觉基础模型。引入了一个新的基准ODALbench来评估性能，经过微调的LLaVA 1.5 7B模型达到了89%的ODAL分数，比GPT-4o高出近20%，并显著减少了幻觉。
RESEARCH · CL_15553 · May 4 · 04:13

研究人员分析多模态机器学习遗忘中的指标不可靠性

研究人员发现，当前用于评估视觉语言模型（VLM）机器学习遗忘的指标存在显著的不可靠性。对36个已遗忘的LLaVA-1.5-7B模型的分析显示，遗忘准确率（Forget Accuracy）和保留准确率（Retain Accuracy）等标准指标常常与激活距离（Activation Distance）和JS散度（JS divergence）等其他指标产生冲突。为解决此问题，研究人员开发了一种新的统一质量评分（UQS），该评分通过根据指标与…