实体 Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond

Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond

PulseAugur coverage of Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond — every cluster mentioning Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

181

90 天内 181

发布 · 30天

90 天内 0

论文 · 30天

179

90 天内 179

层级分布 · 90 天

主题

论文 179
模型发布 109
安全 30
产品 26
其他 25
基础设施 8

关系

instance of alphaXiv 90%
instance of ScienceCast 90%
instance of Gotit.pub 90%
instance of CatalyzeX 90%
instance of train of thought 90%
used by train of thought 70%
used by visual question answering 70%
instance of Qwen2.5-VL-7B 70%
developed visual question answering 50%
developed Grpo 50%

情绪 · 30 天

23 天有情绪数据

最近 · 第 1/10 页 · 共 181 条

RESEARCH · CL_135124 · Jul 9 · 17:46

新的AUTOPILOT VQA基准测试AI在行车记录仪事件理解方面的能力

研究人员推出AUTOPILOT-VQA，这是一个新的基准，旨在评估视觉语言模型从行车记录仪录像中理解安全关键事件的能力。该基准使用针对真实驾驶事件和近乎事故的结构化问题，涵盖了广泛的安全相关因素。目标是推动超越简单的物体识别，实现面向自动驾驶系统的、时间上接地且安全意识的推理。
RESEARCH · CL_135270 · Jul 9 · 15:04

Switch-Reasoner框架学习多模态大语言模型何时需要推理

研究人员开发了Switch-Reasoner，一个旨在提高多模态大语言模型（MLLMs）效率的新框架。该系统使用强化学习，使MLLMs能够根据任务的复杂性，自适应地选择直接回答还是显式推理。通过引入双层调节机制，Switch-Reasoner平衡了这些模式的使用，从而减少了不必要的计算，同时在各种多模态任务中保持高性能。
TOOL · CL_133532 · Jul 9 · 04:00

新框架EMO-R3增强多模态大语言模型的情感推理能力

研究人员推出了一种新颖的框架EMO-R3，旨在提高多模态大语言模型（MLLMs）的情感推理能力。该方法利用结构化情感思维实现循序渐进、可解释的情感推理，并结合反射式情感奖励机制，基于情感连贯性和视文一致性进行自我评估。实验表明，EMO-R3提高了MLLMs的可解释性和情商，在多项视觉情感理解基准测试中表现优于现有方法。
TOOL · CL_133506 · Jul 9 · 04:00

新框架增强LLM从稀疏输入进行3D空间推理的能力

研究人员开发了SpaR3D-MoE，一个新颖的框架，旨在仅使用稀疏的RGB输入来增强多模态大语言模型（MLLMs）的3D空间推理能力。该系统采用自适应时空流形采样机制来创建一个几何感知的图，在减少冗余的同时保持场景连通性。此外，一个融合几何归纳的专家混合模型（Mixture-of-Experts）以及一个指令-姿态感知路由器，能够自适应地将多模态令牌导向专门的专家，从而解决跨模态冲突。在VSI-Bench、ScanQA和SQA3D等基…
TOOL · CL_131663 · Jul 8 · 04:00

新型RS-Agent利用大语言模型自动化遥感任务

研究人员开发了RS-Agent，这是一个智能代理，通过整合多模态大语言模型和领域特定工作流来自动化复杂的遥感任务。该代理具有用于规划的中央控制器、动态工具包以及处理多源数据和空间推理的专业知识和解决方案空间。RS-Agent支持多种成像模式，包括光学和SAR图像，并在众多遥感挑战中展示了超过95%的任务规划准确率。
TOOL · CL_131532 · Jul 8 · 04:00

新的BCI框架利用LLM解码多模态脑信号

研究人员开发了一种新颖的脑机接口（BCI）框架，该框架通过利用多模态大语言模型（MLLMs）从脑信号中解码语言。这种方法将大脑活动与文本、图像和音频对齐，超越了单模态表示。动态路由模块融合了特定于模态的脑部特征，在fMRI、EEG和MEG数据上取得了最先进的性能，在一个通用基准上提高了8.48%。这种统一的架构是同类中的第一个，能够稳健地解码跨越不同信号类型和刺激的多模态脑活动。
RESEARCH · CL_131402 · Jul 7 · 16:28

新的基准和模型推动了人工智能中以自我为中心的视频理解能力

研究人员正在开发新的方法和基准来提高多模态大语言模型（MLLMs）的时间和空间推理能力，特别是针对以自我为中心的视频理解。论文介绍了时间全局策略优化（TGPO）等技术来增强时间感知能力，以及Whareformer等模型用于跟踪长时以自我为中心的视频中的对象。新的基准，如EgoPolice和EgoExoMem，正在被创建，以在具有挑战性的数据集上评估这些模型，包括警方佩戴的摄像机录像和同步的以自我为中心/以外的视频对，突显了即使是像Ge…
RESEARCH · CL_131434 · Jul 7 · 08:29

新框架SparseCtrl-HOI使用稀疏关键帧进行人与物体交互视频生成

研究人员开发了SparseCtrl-HOI，一个用于生成人与物体交互视频的新框架，它显著减少了对密集时序引导的需求。该方法仅使用少量关键帧来控制交互过程，降低了标注成本并增加了运动多样性。该框架包含一个时间控制旋转位置嵌入（TiRoPE）用于时序锚定，以及一个利用多模态大语言模型（MLLMs）生成关键帧之间合理过渡的运动先验注入模块。此外，还创建了一个名为SparseHOI-5K的新数据集来支持这种稀疏时序控制方法，在为直播电商等应用…
RESEARCH · CL_129563 · Jul 7 · 04:00

令牌通信：LLM 驱动新的语义通信范式

两篇研究论文介绍了“令牌通信”（TokenCom）作为一种新的语义通信范式，利用大型语言模型（LLM）提高数据传输效率。第一篇论文“ToDMA”提出了一种大型模型驱动的海量令牌通信方案，使无协调设备能够传输令牌化表示，并使用 LLM 进行错误校正。第二篇论文“令牌通信”将 TokenCom 构建为一种跨模态上下文感知语义通信框架，强调了其在基于 Transformer 的令牌处理方面的潜力，并展示了图像传输中的带宽效率提升。
TOOL · CL_129457 · Jul 7 · 04:00

新基准和多模态大模型应对交通场景中的“关键证据稀释”

研究人员推出了细粒度交通场景推理基准（FGTR-Bench）和一个名为TSR-MLLM的新多模态大语言模型（MLLM），以解决交通场景中“关键证据稀释”的问题。当标准MLLM倾向于关注较大的背景元素而忽略关键的小目标时，就会出现此问题。TSR-MLLM基于Qwen3-VL-4B构建，利用文本引导的小目标关注（TG-SOF）机制，无需外部检测器或重新编码即可提高对相关视觉细节的关注度。
TOOL · CL_129392 · Jul 7 · 04:00

新的CL-Anomaly框架利用MLLM增强异常检测的持续学习能力

研究人员推出CL-Anomaly，一个利用多模态大语言模型（MLLMs）进行异常检测持续学习的新框架。该方法通过采用参数高效的微调策略，解决了现有持续学习方法中常见的计算成本和语义纠缠问题。CL-Anomaly利用私有专家来隔离特定知识，共享专家来促进跨任务学习，并结合动态层自适应知识迁移机制，以优化跨不同异常检测场景的知识共享。
TOOL · CL_129125 · Jul 7 · 04:00

新的CogAlign框架提升了LLM在胃肠内镜诊断中的准确性

研究人员开发了一个名为CogAlign的新框架，以提高多模态大语言模型（MLLMs）在胃肠内镜检查中的诊断准确性。该框架解决了两个关键限制：通用模型推理与临床认知路径之间的不匹配，以及视觉特征与诊断结果之间因果关联的缺失。CogAlign利用分层临床认知数据集和监督微调来内化专家诊断逻辑，并采用反事实驱动的强化学习策略，通过将诊断与病灶特征联系起来以强制执行因果纠正。
TOOL · CL_129100 · Jul 7 · 04:00

ProLaViT框架增强多模态LLM的复杂视觉推理能力

研究人员推出ProLaViT，一个旨在增强多模态大语言模型（MLLM）在复杂视觉推理任务中能力的新框架。ProLaViT利用内源性自蒸馏机制，使MLLM能够在其潜在空间中执行结构化视觉推导。该框架包含两种推理范式：用于空间任务的粗粒度因果链和用于逻辑任务的辩证推理链，以及用于防止特征退化的距离加权多样性损失。实验表明，在以视觉为中心的基准测试中，ProLaViT的准确性、可解释性和效率均优于现有方法。
RESEARCH · CL_129097 · Jul 7 · 04:00

新基准和蒸馏方法推动多模态大语言模型理解能力提升

研究人员开发了改进多模态大语言模型（MLLMs）的新方法。其中一种方法，Token级响应-视觉注意力引导（TRAG），侧重于蒸馏响应到视觉的注意力信号，而非提示到视觉的信号，并使用特定于token的目标来更好地模仿教师模型的视觉焦点。另外，引入了一个名为VKnowU的新基准，用于评估MLLMs的视觉知识理解能力，该基准超越了对象识别，评估了对物理和社会原理的理解。在VKnowU上的评估显示，当前领先的MLLMs在理解世界中心知识方面仍…
TOOL · CL_128836 · Jul 7 · 04:00

多模态大语言模型估计驾驶员视角事故视频中的驾驶员责任

研究人员引入了一项名为责任分配估计的新任务，专门针对驾驶员视角的事故视频。该任务旨在根据驾驶员的视角，预测事故中每个相关方的责任百分比。该团队开发了一个由大语言模型辅助的标注流程，并使用原始帧、增强分割和文本描述等各种输入对多模态大语言模型进行了微调。他们的实验表明，多模态大语言模型能够有效地处理这项复杂的推理任务，为超越简单的事故分类，提供社会和法律相关多模态分析的新方向。
RESEARCH · CL_128851 · Jul 4 · 00:00

新方法逐个标记追踪多模态大语言模型注意力

研究人员开发了一种名为“逐个标记”（OTaT）的新方法，用于分析多模态大语言模型（MLLMs）在响应生成过程中如何利用视觉和文本信息。该技术追踪对图像、文本、指令和先前生成标记的注意力转移，揭示了各种MLLMs之间的一致模式。研究发现，当需要图像派生信息时，对图像的注意力达到峰值；在任务转换期间会重新审视指令；随着时间的推移，对生成标记的注意力会增加。基于这些发现的干预措施显著提高了多模态任务的性能。
TOOL · CL_123366 · Jul 3 · 04:00

新的Wiki-R1框架提升了基于知识的视觉问答的多模态推理能力

研究人员推出Wiki-R1，一个旨在增强基于知识的视觉问答（KB-VQA）领域中大型语言模型多模态推理能力的新框架。该方法采用可控数据生成和课程强化学习策略，以使训练分布与模型不断变化的能力相匹配。在Encyclopedic VQA和InfoSeek基准上的实验表明，Wiki-R1取得了新的最先进成果，显著提高了两个数据集的准确性。
TOOL · CL_123338 · Jul 2 · 17:47

EAGLE-360框架利用全局先验知识推进360度视觉搜索

研究人员推出EAGLE-360，一个旨在改善360度全景环境中主动视觉搜索的新框架。与依赖零散局部视图的传统方法不同，EAGLE-360利用全局先验知识建立整体视角并迭代缩小搜索空间。该框架结合了RoPE Rolling来模拟连续全景拓扑，并使用监督微调（SFT）和组相对策略优化（GRPO）进行训练。这种方法在360度视觉搜索方面达到了新的最先进水平，准确性提高了约八倍，并增强了探索效率。
TOOL · CL_122991 · Jul 2 · 10:45

InduceKV 方法为多模态大语言模型实现固定足迹的持续适应

研究人员开发了 InduceKV，一种在保持固定部署足迹的同时持续适应多模态大语言模型 (LLM) 的新颖方法。该方法将选定的训练前缀存储为即时可用的内存条目，包括一个固定的检索键和紧凑的层级键值 (KV) 有效载荷，以增强模型的自注意力缓存。InduceKV 旨在克服重复参数更新或可能随时间累积适应状态的不断增长的重放存储的挑战。在包括指令调优和视觉问答在内的各种持续学习场景中的实验表明，在匹配的内存预算下，InduceKV 的性能…
TOOL · CL_121209 · Jul 1 · 11:41

新框架提升大语言模型高分辨率图像感知能力

研究人员推出了一种名为分层实体探索（HEE）的新型框架，旨在增强多模态大语言模型（MLLMs）的高分辨率图像感知能力。与需要大量训练或依赖固定图像分割的现有方法不同，HEE无需训练且模型无关。它通过首先评估区域是否有足够证据，然后使用对象检测进行细粒度细节分析，并将这些信息组织成语义层次结构，来动态指导实体探索。该方法旨在通过置信度引导的回溯实现自适应感知，从而克服当前高分辨率图像处理中常见的细节丢失问题。

新的AUTOPILOT VQA基准测试AI在行车记录仪事件理解方面的能力

Switch-Reasoner框架学习多模态大语言模型何时需要推理

新框架EMO-R3增强多模态大语言模型的情感推理能力

新框架增强LLM从稀疏输入进行3D空间推理的能力

新型RS-Agent利用大语言模型自动化遥感任务

新的BCI框架利用LLM解码多模态脑信号

新的基准和模型推动了人工智能中以自我为中心的视频理解能力

新框架SparseCtrl-HOI使用稀疏关键帧进行人与物体交互视频生成

令牌通信：LLM 驱动新的语义通信范式

新基准和多模态大模型应对交通场景中的“关键证据稀释”

新的CL-Anomaly框架利用MLLM增强异常检测的持续学习能力

新的CogAlign框架提升了LLM在胃肠内镜诊断中的准确性

ProLaViT框架增强多模态LLM的复杂视觉推理能力

新基准和蒸馏方法推动多模态大语言模型理解能力提升

多模态大语言模型估计驾驶员视角事故视频中的驾驶员责任

新方法逐个标记追踪多模态大语言模型注意力

新的Wiki-R1框架提升了基于知识的视觉问答的多模态推理能力

EAGLE-360框架利用全局先验知识推进360度视觉搜索

InduceKV 方法为多模态大语言模型实现固定足迹的持续适应

新框架提升大语言模型高分辨率图像感知能力