实体 LMMs

LMMs

PulseAugur coverage of LMMs — every cluster mentioning LMMs across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 6

层级分布 · 90 天

主题

关系

instance of Large Multimodal Models 95%

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_141376 · Jul 14 · 04:00

大型多模态模型增强无线移动性管理

研究人员开发了一种新颖的移动性管理方案，利用大型多模态模型（LMMs）来增强无线通信性能。该方法整合了来自RGB-D图像的环境数据和传统的无线测量数据，以预测未来的信道容量并优化切换决策。基于LMM的方案旨在改善用户设备的移动模式并最大化累积信道容量，与现有的深度学习方法相比显示出显著的优势。
TOOL · CL_128765 · Jul 7 · 04:00

New Regularizer Enhances Taxonomic Knowledge in Large Multimodal Models

研究人员开发了一种名为分层表示正则化（$HiR^2$）的新方法，以提高大型多模态模型（LMMs）的分类知识。当前的LMMs通常缺乏对概念之间语义关系的理解，导致在分层视觉识别方面存在不一致。$HiR^2$引入了一个语义感知的视觉树构建框架，该框架从中间LLM层提取特征。该正则化器包括一个分类蕴含损失和一个判别性分散损失，以强制执行分层一致性并促进相似嵌入的分离。
RESEARCH · CL_18669 · May 5 · 16:36

UnAC方法通过自适应提示增强LMM的复杂多模态推理能力

研究人员推出了一种新颖的多模态提示方法UnAC，旨在增强大型多模态模型（LMM）在复杂视觉任务上的推理能力。该方法采用自适应视觉提示来帮助模型聚焦于相关图像区域，并使用图像抽象提示来提取关键信息。此外，UnAC还包含一个渐进式自我检查机制，用于验证分解的子问题的答案，从而提高整体推理准确性。
TOOL · CL_15665 · May 5 · 04:00

新的CSteer方法无需微调即可引导大型多模态模型指代多个区域

研究人员开发了一种新的无需训练的方法，称为上下文潜在引导（CSteer），以增强大型多模态模型（LMMs）准确识别和指代图像中多个特定区域的能力。该方法在推理过程中修改模型的内部表示，使其能够更好地区分区域并考虑全局上下文，而无需额外的微调或架构更改。在各种数据集上的实验表明，配备CSteer的LMM在视觉指代任务上超越了专门的指代模型，确立了新的最先进水平。
RESEARCH · CL_10152 · Apr 30 · 04:00

研究人员开发Glance-or-Gaze，通过自适应聚焦提升大型多模态模型的视觉搜索能力

研究人员推出Glance-or-Gaze (GoG)，一个旨在改进大型多模态模型（LMM）处理知识密集型视觉查询的新框架。与之前不加区分地检索信息的旧方法不同，GoG采用选择性注视机制，自适应地聚焦于相关的图像区域或全局上下文。该框架采用双阶段方法进行训练，结合了监督微调和复杂度自适应强化学习，以增强迭代推理能力和在复杂视觉任务上的表现。
RESEARCH · CL_05112 · Apr 27 · 04:00

新基准UNIKIE-BENCH评估大模型在文档信息提取方面的能力

研究人员推出了UNIKIE-BENCH，这是一个旨在系统评估大语言多模态模型（LMMs）从视觉文档中提取关键信息性能的新基准。该基准包含两个赛道：一个用于具有预定义模式的约束类别KIE，另一个用于开放类别KIE。使用15个最先进的LMMs进行的实验突显了在处理不同模式、长尾信息和复杂布局时性能显著下降，表明LMMs在该领域的准确性和推理能力仍面临挑战。