实体 Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond

Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond

PulseAugur coverage of Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond — every cluster mentioning Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 45

发布 · 30天

90 天内 0

论文 · 30天

90 天内 45

层级分布 · 90 天

情绪 · 30 天

15 天有情绪数据

最近 · 第 3/3 页 · 共 45 条

RESEARCH · CL_06531 · Apr 28 · 04:00

OmniVTG数据集和CoT范式增强了开放世界视频时序定位

研究人员推出了OmniVTG，这是一个大规模数据集和训练范式，旨在改进多模态大语言模型（MLLMs）的开放世界视频时序定位（VTG）。该数据集采用新颖的流程来识别和收集包含代表性不足概念的视频，并采用以字幕为中心的策略进行高质量标注。此外，还提出了一种自校正思维链（CoT）训练方法，该方法利用MLLMs的理解能力来优化预测，在现有基准和新的OmniVTG数据集上均取得了最先进的性能。
RESEARCH · CL_06275 · Apr 27 · 11:44

OS-SPEAR工具包评估AI代理的安全、性能、效率和鲁棒性

研究人员推出OS-SPEAR，一个旨在严格评估操作系统代理的新工具包。该工具包横跨四个关键维度评估代理：安全、性能、效率和鲁棒性。OS-SPEAR包含每个领域的专用数据集和一个生成诊断报告的自动化分析工具。对22个操作系统代理的评估揭示了效率与安全或鲁棒性之间普遍存在的权衡。
RESEARCH · CL_04921 · Apr 24 · 12:20

多模态大语言模型在新型MTT-Bench基准测试中预测小鼠社会支配地位

研究人员开发了MTT-Bench，这是一个利用多模态大语言模型（MLLMs）分析小鼠社会支配地位的新基准测试。该框架对现有的MLLM架构进行微调，以便在测试期间从原始行为视频中预测支配等级，而无需显式标签。该方法与传统的管子测试排名高度一致，为基础模型在动物行为学和社会行为学研究中的应用开辟了新途径。
RESEARCH · CL_05414 · Apr 22 · 03:17

SAKE框架通过自感知知识利用增强多模态命名实体识别

研究人员开发了SAKE，一个旨在改进基础多模态命名实体识别（GMNER）的新框架。SAKE通过结合内部知识利用和外部知识探索，解决了开放世界环境中识别长尾和演化实体等挑战。该框架采用两阶段训练过程，包括难度感知搜索标签生成和代理强化学习，以实现工具调用的自感知决策。
RESEARCH · CL_05425 · Apr 21 · 12:10

Air-Know网络采用新颖的专家-代理-分流范式解决组合图像检索问题

研究人员推出Air-Know，一种旨在解决组合图像检索（CIR）挑战的新型网络，特别解决了噪声三元组对应（NTC）问题。现有方法在处理NTC固有的语义歧义时遇到困难，导致噪声识别不可靠和表示污染。Air-Know采用“专家-代理-分流”范式，利用多模态大语言模型（MLLMs）创建高精度锚点数据集，引导代理仲裁器，然后根据匹配置信度分流训练数据，以实现清晰的对齐和表示反馈。

OmniVTG数据集和CoT范式增强了开放世界视频时序定位

OS-SPEAR工具包评估AI代理的安全、性能、效率和鲁棒性

多模态大语言模型在新型MTT-Bench基准测试中预测小鼠社会支配地位

SAKE框架通过自感知知识利用增强多模态命名实体识别

Air-Know网络采用新颖的专家-代理-分流范式解决组合图像检索问题