实体 LLaVA-NeXT

LLaVA-NeXT

PulseAugur coverage of LLaVA-NeXT — every cluster mentioning LLaVA-NeXT across labs, papers, and developer communities, ranked by signal.

总计 · 30天

4

90 天内 4

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

RESEARCH · CL_111313 · Jun 25 · 09:27

ReasonCLIP-58M通过视觉常识推理增强CLIP模型

研究人员推出ReasonCLIP-58M，一个用于持续预训练CLIP风格模型的新框架。该方法整合了大规模推理监督，以增强视觉基础的常识推理和组合推理能力。该框架采用两阶段策略，在逐步添加推理信号的同时保持描述性对齐，并得到了新的数据集和诊断评估基准的支持。ReasonCLIP-58M可用作多模态大型语言模型的即插即用视觉编码器，在不增加推理成本的情况下提高性能。
RESEARCH · CL_110189 · Jun 25 · 06:45

新的TOPS方法剪枝视觉令牌以实现高效的MLLM推理

研究人员开发了TOPS，一种用于剪枝多模态大语言模型（MLLM）中视觉令牌以提高效率的新颖方法。与依赖注意力分数或令牌相似性的先前方法不同，TOPS使用基于第一性原理的信息论框架，根据任务相关性、信息覆盖率和语义多样性来识别关键令牌。这个无需训练且模型无关的模块已经在各种MLLM中展示了显著的性能提升，特别是在LLaVA-NeXT上将视觉令牌减少了77%以上，同时保持甚至略微提高了性能。
RESEARCH · CL_91013 · Jun 12 · 08:58

新的ALVTS方法通过自适应令牌选择提升LVLM效率

研究人员推出了一种名为自适应层级视觉令牌选择（ALVTS）的新框架，旨在提高大型视觉语言模型（LVLM）的效率。与先前永久丢弃令牌的方法不同，ALVTS动态选择重要令牌进行进一步处理，同时允许不太关键的令牌跳过某些层。这种自适应方法在无需重新训练模型的情况下最大限度地减少了计算冗余。实验表明，ALVTS可以在LLaVA-1.5、LLaVA-NeXT和Qwen2.5-VL等基准测试中实现89%的令牌压缩率，同时保留原始模型96.7%的准确性。
RESEARCH · CL_51388 · May 25 · 06:19

新的AI研究聚焦于通过量化和Token剪枝提升模型效率

研究人员正在开发新的方法，通过量化和Token剪枝来提高AI模型的效率。一种名为PeRQ的方法，通过在旋转前重新分配激活质量来增强训练后量化，从而显著提高了Llama3 1B等模型的准确性。另一种方法OccamToken，通过使用寄存器锚定的相对证据测试，有效地剪枝视觉语言模型（VLM）中的视觉Token，在保持准确性的同时减少了Token数量。此外，Clark Hash提供了一种无状态编解码器，用于紧凑的神经嵌入存储，以最小的准确性…