实体 Multi-modal Large Language Models

Multi-modal Large Language Models

PulseAugur coverage of Multi-modal Large Language Models — every cluster mentioning Multi-modal Large Language Models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 9

发布 · 30天

90 天内 0

论文 · 30天

90 天内 9

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

TOOL · CL_129559 · Jul 7 · 04:00

CoLT框架教会多模态模型用潜在思维进行推理

研究人员开发了CoLT（Chain of Latent Thoughts，潜在思维链），一个旨在提高多模态大语言模型（MLLMs）在视觉推理任务中效率和效果的新框架。与依赖冗长文本标记的传统思维链（CoT）方法不同，CoLT利用潜在思维表示链，显著减少了推理时间和计算成本。该框架在训练期间采用轻量级外部解码器进行步级监督，确保了稳定且有意义的潜在推理，然后在推理时移除该解码器以实现最大效率。实验表明，CoLT的性能优于现有的潜在推理方…
RESEARCH · CL_107688 · Jun 22 · 19:27

新的“Ground Then Rank”方法提升了知识型视觉问答能力

研究人员开发了一个名为“Ground Then Rank”（GTR）的新框架，以提高知识型视觉问答（KB-VQA）的性能。该方法将实体识别与证据排序解耦，解决了现有跨模态检索增强生成（MM-RAG）方法的局限性。通过首先提示一个跨模态大语言模型（MLLM）从候选列表中识别高置信度实体，然后使用现成的重排序器进行证据选择，GTR在Encyclopedic-VQA和InfoSeek等基准测试中取得了优异的结果，同时降低了计算复杂度。
RESEARCH · CL_105257 · Jun 22 · 16:16

新的基准和方法应对视觉文档检索挑战

研究人员开发了新的方法来改进视觉文档检索，特别是针对发票等大量相似文档的检索。一种名为 Invoice Haystack 的方法引入了一个基准，旨在测试检索系统在强视觉同质性条件下的性能，而现有方法在这种条件下由于嵌入塌陷而难以奏效。为了解决这个问题，提出了一种名为 VL-RAG 的新框架，该框架结合了文本和视觉嵌入以实现更精确的识别。另一种名为 LightSTAR 的方法侧重于效率，通过使用无 LLM 的选择过程来快速缩小相关页面的…
RESEARCH · CL_84430 · Jun 10 · 09:30

新的TASM框架通过结构化记忆提升MLLM效率

研究人员开发了一个名为TASM（任务感知结构化记忆）的新框架，以提高多模态大型语言模型（MLLM）的效率。这种无需训练的方法通过保留语义结构和实现动态内存访问，解决了当前内存压缩技术的局限性。TASM利用任务向量引导的压缩和语义感知的令牌合并来创建分层记忆结构，该结构在显著压缩下仍能保持高性能。
RESEARCH · CL_79694 · Jun 8 · 09:21

新基准和框架提升视频时序定位能力

研究人员为改进长视频中的时序定位引入了新的基准和框架。一项研究认为，小时级视频定位主要是一个搜索问题，而非识别问题，并发布了ExtremeWhenBench基准来支持这一观点。另一种方法TaRO通过时间感知和新颖的奖励系统来优化其推理过程，从而增强多模态大语言模型。第三种方法CACR利用候选选择和因果推理，在教学视频时序定位任务上取得了最先进的性能。
RESEARCH · CL_79606 · Jun 8 · 07:19

大语言模型隐私研究聚焦日本数据、多模态风险与差分隐私适应性

研究人员正在探索与大语言模型（LLMs）及其适应性相关的隐私风险。一项研究侧重于检测日本预训练语料库中的敏感个人信息，并开发了用于日本《个人信息保护法》下的特别关照个人信息（SCPI）的分类器。另一篇论文调查了多模态大语言模型中的隐私漏洞，强调了它们如何泄露图像和内存中的敏感数据，并引入了一个用于评估的数据集。第三项研究对差分隐私（DP）在适应大语言模型中的有效性进行了基准测试，发现数据分布的显著变化会影响隐私风险，而像LoRA这样的…
TOOL · CL_65341 · Jun 2 · 04:00

调查论文详述LLM和MM-LLM在交通运营中的应用

一篇新的调查论文探讨了大型语言模型（LLMs）和多模态大型语言模型（MM-LLMs）在交通系统管理与运营中的应用。该研究综合了运营、出行服务和数据支持等领域的现有研究，并指出了数据异构性和可解释性等挑战。论文提出，LLMs作为决策支持层最有前景，特别是MM-LLMs能够整合多样化的数据输入。
RESEARCH · CL_36921 · May 12 · 20:49

AI代理学习人类信念和空间推理

研究人员正在探索AI代理如何更好地理解人类的信念和意图，特别是在交互式场景中。一篇论文提出了一个二阶心智理论（ToM-2）框架，使用I-POMDP使代理能够检测并适应人类的认知偏差。另一项研究调查了多模态大型语言模型（MLLMs）在具身环境中的空间推理局限性，并引入了一个新的模块和推理链来提高它们在感知约束下推断另一代理观点的能力。
RESEARCH · CL_27982 · May 11 · 16:49

AI研究质疑视频异常检测的框架

两篇新研究论文挑战了当前视频异常检测（VAD）的方向。第一篇论文认为，该领域对通用模型和多模态大语言模型（MLLMs）的关注，已将焦点从特定场景、依赖上下文的异常识别转移开。第二篇论文介绍了MMVIAD，一个用于工业VAD的新数据集和基准，并提出了一个名为VISTA的模型，该模型在多任务评估中提高了性能，优于GPT-5.4。

CoLT框架教会多模态模型用潜在思维进行推理

新的“Ground Then Rank”方法提升了知识型视觉问答能力

新的基准和方法应对视觉文档检索挑战

新的TASM框架通过结构化记忆提升MLLM效率

新基准和框架提升视频时序定位能力

大语言模型隐私研究聚焦日本数据、多模态风险与差分隐私适应性

调查论文详述LLM和MM-LLM在交通运营中的应用

AI代理学习人类信念和空间推理

AI研究质疑视频异常检测的框架