实体 Ubiquitin-like 3

Ubiquitin-like 3

PulseAugur coverage of Ubiquitin-like 3 — every cluster mentioning Ubiquitin-like 3 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

6

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

6

90 天内 6

层级分布 · 90 天

frontier release 1
significant 1
research 2
tool 2

主题

关系

instance of Multimodal Multitask Multimedia Understanding 70%

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_22498 · May 8 · 04:00

新度量可在无标注情况下评估多模态大语言模型的逻辑一致性

研究人员引入了一种新度量 VL-LCM，可在无需真实标注的情况下评估多模态大语言模型（MLLMs）的逻辑一致性。该度量使用 MMMU 和 NaturalBench 等现有基准，评估 MLLMs 在视觉-语言任务上的因果推理能力。对 11 个开源 MLLMs 的实验表明，尽管准确性有所提高，但逻辑一致性仍然是一个重大挑战，这表明 VL-LCM 可用于辅助模型选择和新任务验证。
RESEARCH · CL_18669 · May 5 · 16:36

UnAC方法通过自适应提示增强LMM的复杂多模态推理能力

研究人员推出了一种新颖的多模态提示方法UnAC，旨在增强大型多模态模型（LMM）在复杂视觉任务上的推理能力。该方法采用自适应视觉提示来帮助模型聚焦于相关图像区域，并使用图像抽象提示来提取关键信息。此外，UnAC还包含一个渐进式自我检查机制，用于验证分解的子问题的答案，从而提高整体推理准确性。
TOOL · CL_15761 · May 5 · 04:00

LinMU 为多模态理解模型实现线性复杂度

研究人员开发了 LinMU，一种新颖的视觉语言模型（VLM）架构，实现了线性复杂度，克服了当前模型二次复杂度的限制。这种新设计利用了 M-MATE 块，结合了状态空间模型和窗口注意力，以高效处理高分辨率图像和长视频。通过三阶段蒸馏过程，LinMU 在显著减少处理时间和提高吞吐量的同时，达到了现有模型的性能，使先进的多模态推理更加易于访问。
RESEARCH · CL_04920 · Apr 24 · 12:26

新的CGC框架提升多模态LLM的细粒度图像理解能力

研究人员推出了一种名为组合式地面对比（CGC）的新框架，旨在增强多模态大语言模型（MLLMs）的细粒度多图像理解能力。该方法通过利用现有的单图像标注构建训练实例，解决了空间幻觉和物体恒常性等挑战。CGC利用跨图像和图像内对比学习，以及基于规则的空间奖励系统，来改进归因和对齐。该框架在MIG-Bench和VLM2-Bench等基准测试中展现了最先进的性能，并显示出对其他多模态任务的积极迁移学习效果。
FRONTIER RELEASE · CL_02354 · Apr 16 · 10:00

OpenAI 的新模型让 ChatGPT 能够用图像进行高级推理

OpenAI 推出了其最新的视觉推理模型 o3 和 o4-mini，这些模型允许 AI 在其内部推理过程中“用图像思考”。这些模型能够原生执行图像操作，如裁剪和缩放，从而增强 ChatGPT 分析复杂视觉数据的能力。这一进展在多模态基准测试中取得了最先进的性能，尤其是在 STEM 问答和视觉搜索方面，标志着向更强大的多模态 AI 代理迈出了重要一步。
FRONTIER RELEASE · CL_01020 · Sep 12 · 10:02

OpenAI 的 o1 模型展现出高级推理能力，而谷歌和苹果则在探索新的 LLM 训练方法。

OpenAI 发布了其新模型 OpenAI o1-preview 的早期版本，该模型在推理能力方面相比 GPT-4o 有显著提升。该模型在竞赛编程、高级数学考试和复杂的科学基准测试中表现出色，在某些领域超越了人类专家的表现。这种进步归功于一种大规模强化学习算法，该算法通过思维链教会模型进行生产性思考，并且性能随着训练和测试时间的计算量而扩展。