实体 LLaVA-1.5

LLaVA-1.5

PulseAugur coverage of LLaVA-1.5 — every cluster mentioning LLaVA-1.5 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

RESEARCH · CL_139052 · Jul 13 · 00:35

密歇根大学发布 NeuroVFM 用于神经影像分析

密歇根大学的研究人员开发了 NeuroVFM，一个新颖的神经影像基础模型。该模型使用 Vol-JEPA 方法，在超过 5.24 百万份临床 MRI 和 CT 扫描上进行训练，NeuroVFM 从未经整理的医学数据中学习，无需放射报告标签。这种自监督方法在众多诊断任务中取得了高性能，并展示了在医学影像分析中生成报告、患者分诊和跨模态迁移等应用的潜力。
TOOL · CL_109968 · Jun 25 · 04:00

新框架应对多模态大语言模型中的灾难性遗忘问题

研究人员推出了一种名为 Curvature-Guided Mixing (CGM) 的新框架，旨在改进多模态大语言模型 (MLLM) 的适应性。该方法解决了灾难性遗忘问题，即在特定任务上进行微调会损害通用能力。CGM 利用损失景观的二阶近似，根据预训练模型和微调模型各自损失景观的曲率，分析性地确定混合它们的最佳比例。增强版 CGM$ exttt{ ext{ extdagger}}$ 通过一种新颖的曲率感知评分来指导鲁棒的参数选择。在 …
RESEARCH · CL_91013 · Jun 12 · 08:58

新的ALVTS方法通过自适应令牌选择提升LVLM效率

研究人员推出了一种名为自适应层级视觉令牌选择（ALVTS）的新框架，旨在提高大型视觉语言模型（LVLM）的效率。与先前永久丢弃令牌的方法不同，ALVTS动态选择重要令牌进行进一步处理，同时允许不太关键的令牌跳过某些层。这种自适应方法在无需重新训练模型的情况下最大限度地减少了计算冗余。实验表明，ALVTS可以在LLaVA-1.5、LLaVA-NeXT和Qwen2.5-VL等基准测试中实现89%的令牌压缩率，同时保留原始模型96.7%的准确性。
RESEARCH · CL_82221 · Jun 9 · 06:37

视觉语言模型将海岸线预测为折线

研究人员开发了CoastlineVLM-7B，一个视觉语言模型，旨在直接将海岸线预测为折线而不是分割掩码。这种方法基于GeoChat-7B/LLaVA-1.5架构，专注于使用植被线或沙丘脚等地貌代理进行几何边界定位。在新西兰海岸变化数据集上的评估显示，与传统的分割方法相比，几何对齐得到改善，降低了Hausdorff距离和Earth Mover's距离。
RESEARCH · CL_02088 · Apr 23 · 08:04

VG-CoT: 通过基于实证的思维链实现可信赖的视觉推理

研究人员推出了VG-CoT，这是一个旨在提高大型视觉语言模型（LVLM）可信度的新数据集。该数据集可自动将推理步骤与图像中的特定视觉证据联系起来，克服了现有需要大量手动标注的数据集的局限性。VG-CoT还包括一个基准，用于评估LVLM在推理质量、答案准确性和推理-答案一致性方面的表现，初步实验显示LLaVA-1.5和Qwen2-VL等模型有所改进。