PulseAugur
实时 08:27:03
实体 Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond

Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond

PulseAugur coverage of Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond — every cluster mentioning Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
45
90 天内 45
发布 · 30天
0
90 天内 0
论文 · 30天
45
90 天内 45
层级分布 · 90 天
情绪 · 30 天

15 天有情绪数据

最近 · 第 3/3 页 · 共 45 条
  1. RESEARCH · CL_06531 ·

    OmniVTG数据集和CoT范式增强了开放世界视频时序定位

    研究人员推出了OmniVTG,这是一个大规模数据集和训练范式,旨在改进多模态大语言模型(MLLMs)的开放世界视频时序定位(VTG)。该数据集采用新颖的流程来识别和收集包含代表性不足概念的视频,并采用以字幕为中心的策略进行高质量标注。此外,还提出了一种自校正思维链(CoT)训练方法,该方法利用MLLMs的理解能力来优化预测,在现有基准和新的OmniVTG数据集上均取得了最先进的性能。

  2. RESEARCH · CL_06275 ·

    OS-SPEAR工具包评估AI代理的安全、性能、效率和鲁棒性

    研究人员推出OS-SPEAR,一个旨在严格评估操作系统代理的新工具包。该工具包横跨四个关键维度评估代理:安全、性能、效率和鲁棒性。OS-SPEAR包含每个领域的专用数据集和一个生成诊断报告的自动化分析工具。对22个操作系统代理的评估揭示了效率与安全或鲁棒性之间普遍存在的权衡。

  3. RESEARCH · CL_04921 ·

    多模态大语言模型在新型MTT-Bench基准测试中预测小鼠社会支配地位

    研究人员开发了MTT-Bench,这是一个利用多模态大语言模型(MLLMs)分析小鼠社会支配地位的新基准测试。该框架对现有的MLLM架构进行微调,以便在测试期间从原始行为视频中预测支配等级,而无需显式标签。该方法与传统的管子测试排名高度一致,为基础模型在动物行为学和社会行为学研究中的应用开辟了新途径。

  4. RESEARCH · CL_05414 ·

    SAKE框架通过自感知知识利用增强多模态命名实体识别

    研究人员开发了SAKE,一个旨在改进基础多模态命名实体识别(GMNER)的新框架。SAKE通过结合内部知识利用和外部知识探索,解决了开放世界环境中识别长尾和演化实体等挑战。该框架采用两阶段训练过程,包括难度感知搜索标签生成和代理强化学习,以实现工具调用的自感知决策。

  5. RESEARCH · CL_05425 ·

    Air-Know网络采用新颖的专家-代理-分流范式解决组合图像检索问题

    研究人员推出Air-Know,一种旨在解决组合图像检索(CIR)挑战的新型网络,特别解决了噪声三元组对应(NTC)问题。现有方法在处理NTC固有的语义歧义时遇到困难,导致噪声识别不可靠和表示污染。Air-Know采用“专家-代理-分流”范式,利用多模态大语言模型(MLLMs)创建高精度锚点数据集,引导代理仲裁器,然后根据匹配置信度分流训练数据,以实现清晰的对齐和表示反馈。