COCO · PulseAugur

新的MTLA方法可提高MLLM置信度并减少幻觉 · 跟踪到2个来源

研究人员开发了一种名为多令牌局部注意力（MTLA）的新方法，以提高多模态大型语言模型（MLLM）对其局部预测的置信度。这种无需训练的、事后评分方法可以衡量预测的令牌在多大程度上关注它们声称的特定区域，从而提供比传统令牌对数概率更强的信号。MTLA在减少跨多种模态和任务的幻觉方面表现出显著的改进，并且在用于重新排序时，它能显著提高通用MLLM在目标检测等任务上的性能。

TOOL · CL_129422 · Jul 7 · 04:00

新型视觉SSM消除方向扫描，提升图像识别能力

研究人员推出了一种新颖的二阶非因果状态空间模型（SSM），名为Vision Non-Causal Trapezoidal Mamba (VNCT)，专为视觉识别任务设计。与依赖方向性标记扫描的先前视觉SSM不同，VNCT在单次传递中同时处理所有图像标记，消除了方向偏差并降低了推理延迟。这种方法产生了更具方向鲁棒性的表示，从而在ImageNet-1K分类、COCO目标检测和ADE20K语义分割等基准测试中取得了更好的性能，尤其是在需要精…

TOOL · CL_128856 · Jul 7 · 04:00

新的深度剪枝方法提高了视觉Transformer的效率

研究人员开发了一种名为HetDPT的新方法来改进视觉Transformer（ViTs）的深度剪枝。该方法考虑了不同层之间的异构性，而这是先前深度剪枝技术的局限性。HetDPT避免了维度不匹配的问题，并在ImageNet-1K和CIFAR-100等数据集上实现了显著的加速，同时保持了准确性。当与宽度剪枝结合时，HetDPT+在极端的ViT剪枝方面设定了新的最先进水平，在接近无损准确率的情况下实现了更高的加速比。

RESEARCH · CL_128630 · Jul 6 · 16:00

CLIPix 框架将 CLIP 用于像素级定位

研究人员开发了 CLIPix，一个将 CLIP 视觉语言模型重新用于像素级定位任务的新框架。该方法追溯 CLIP 的分类过程以识别特定于对象的注意力区域，然后使用抗噪声校正策略进行细化，以实现更精确的分割。该方法整合了定位和详细信息，能够对任意对象进行准确、高分辨率的分割，并在 PASCAL 和 COCO 数据集上展示了最先进的性能。

TOOL · CL_123354 · Jul 3 · 04:00

DETRPose：实时Transformer模型用于多人姿态估计

研究人员推出DETRPose，这是一系列新颖的基于Transformer的模型，专为实时端到端多人姿态估计而设计。该方法显著增强了GroupPose解码器以实现实时推理速度。为了加速训练，DETRPose采用了一种新的去噪关键点技术和扩展的varifocal损失来提高查询质量。评估表明，DETRPose模型在准确性方面与现有领先的替代方案相当或超越它们，同时需要更少的训练周期、参数，并提供更快的推理速度。

TOOL · CL_123241 · Jul 2 · 16:38

面向对象的LeJEPA利用SAM改进图像表示学习

研究人员开发了LeJEPA的面向对象版本，这是一种用于图像编码器的自监督学习方法。通过利用SAM生成的对象掩码，这种新方法旨在提高数据效率，优于传统的图像级方法。面向对象的LeJEPA在各种下游任务中表现出卓越的性能，包括跟踪、分类、分割和重新识别，即使在缩减的数据集上进行训练也是如此。

TOOL · CL_123233 · Jul 2 · 12:33

新的WBMM技术提高了大卷积核的效率

研究人员开发了一种名为窗口化批处理矩阵乘法（WBMM）的新技术，以提高大卷积核深度卷积的效率。传统方法随着卷积核尺寸的增加而出现性能下降，但WBMM将输入分割成窗口并使用偏置表构建权重矩阵，通过批处理矩阵乘法实现规则的内存访问。该方法在更大的窗口下显示出更高的吞吐量，并在ImageNet-1K、COCO和ADE20K等基准测试中取得了相当或更好的准确率，同时在各种硬件平台上实现了显著的训练加速。

TOOL · CL_121485 · Jul 2 · 04:00

新的UPADNet方法利用相位信息增强图像去模糊

研究人员开发了一种新颖的图像去模糊技术UPADNet，该技术利用相位信息和幅度信息来改善细节恢复。该方法使用线性最小均方误差（LMMSE）估计器来估计相位和幅度，然后进行迭代优化算法。网络参数进行端到端训练，在GoPro和RealBlur等数据集上的实验表明，UPADNet的性能优于现有的深度网络，尤其是在高噪声或训练数据有限的情况下。

TOOL · CL_111820 · Jun 26 · 04:00

新框架NegAS提升了视觉语言模型中分布外目标的检测能力

研究人员推出了一种新颖的框架NegAS，旨在增强视觉语言模型（VLMs）中分布外（OOD）目标的检测能力。NegAS解决了两个关键挑战：改进注意力机制以更好地识别潜在的OOD区域，以及开发与VLM概率输出兼容的评分函数。该框架利用负标签来指导注意力，并使用基于sigmoid的评分函数来区分分布内和分布外实例，在COCO和OpenImages等数据集上显著提高了OOD检测性能，同时保持了对分布内目标的准确性。

TOOL · CL_111892 · Jun 26 · 02:00

AI 图像模型因强制统一审美而有缩小艺术表现范围的风险

来自不列颠哥伦比亚大学和 Weathon Software 研究人员的一篇新论文认为，当前 AI 图像生成模型因过度对齐狭隘的人类审美定义，实际上正在扼杀艺术表现。该研究表明，为生成普遍令人愉悦的图像（通常被描述为“糖果色”或“网红风格”照片）而训练的模型，正在边缘化多样的艺术风格，并可能通过将自身审美偏好强加给用户来逆转对齐过程。研究强调了这种趋势可能导致艺术同质化并限制创作可能性的担忧。

RESEARCH · CL_111321 · Jun 25 · 08:16

新研究“Robust Onion”分析噪声对物体检测器的影响

一项题为“Robust Onion”的新研究调查了现实世界噪声对开放词汇物体检测器（OV-ODs）的影响。该研究使用受控的合成降级来分析这些检测器如何以及为何会失去鲁棒性，并将特征坍塌确定为一个关键因素。研究结果表明，视觉骨干网络是鲁棒性的主要决定因素，预训练策略和架构细节起着次要作用。该研究还强调，图像域而非标注决定了鲁棒性，并提出了一种轻量级方法来提高检测器在真实世界数据集上的性能。

RESEARCH · CL_107944 · Jun 23 · 07:22

新AI研究聚焦多模态推理、效率和机器人感知

arXiv上发布的几篇研究论文提出了改进AI模型多模态推理的新方法。VISE（Visual Invariance Self-Evolution）通过强制执行空间和语义不变性来解决视觉欠条件问题，在图像字幕和VQA任务上取得了显著的提升。Visual-OPSD专注于高效推理，通过将使用特权视觉思维的教师模型的知识蒸馏到一个纯文本学生模型中，实现了显著的加速。另一种方法Ask, Solve, Generate，使用自我一致性奖励在没有外部…

RESEARCH · CL_107854 · Jun 23 · 00:04

新框架优化扩散模型引导，以实现更好的保真度-覆盖率权衡 · 跟踪3个来源

研究人员开发了一个新的信息论框架来优化扩散模型中的分类器自由引导（CFG）调度。该方法旨在平衡保真度与分布覆盖率之间的权衡，而这通常会因强引导而受到损害。所提出的方法使用参考点来引导采样器，并推导出目标估计的公式，在ImageNet-512和COCO数据集上展示了具有竞争力的或改进的结果。

RESEARCH · CL_113310 · Jun 22 · 09:18

新方法通过提高准确性来推进少样本目标检测

研究人员开发了一种新的少样本目标检测方法，该技术能够用最少的标记示例识别新颖的目标类别。该方法解决了两个关键限制：类别混淆和定位精度不足。它引入了文本锚定语义掩码（TSMa）来改善类间区分，并引入了阶段对齐分层自回归回归（SHARe）来逐步精炼边界框预测。在COCO数据集上的实验表明，这种新方法取得了最先进的性能，比之前的结果提高了10.1 nAP。

TOOL · CL_105275 · Jun 22 · 09:18

新方法通过语义掩码和分层回归增强少样本目标检测

研究人员开发了一种新颖的少样本目标检测方法，该技术能够用最少的标记示例识别新的目标类别。该方法解决了现有基于原型的相似性学习中的两个关键限制：类别混淆和用于精确定位的空间细节不足。通过引入文本锚定语义掩码（TSMa）和阶段对齐分层自回归回归（SHARe）组件，该系统提高了类间相似性边界并跨多个阶段优化了边界框预测。在COCO数据集上的实验显示出显著的改进，达到了新的最先进性能。

TOOL · CL_113485 · Jun 21 · 17:31

人工智能通过新的 OCR 管道破译古代楔形文字泥板

研究人员开发了一种新的计算机视觉系统，用于自动检测和转录古代泥板上的楔形文字符号。该系统利用了迄今为止最大的带注释的楔形文字符号数据集，并采用了可变形检测 Transformer 模型。这种方法集成了自动泥板提取、行分组和文本相似性评估，在检测指标上比以前的方法有了显著改进。该系统应用于电子巴比伦图书馆近 290 万个符号检测，涵盖 87,668 块泥板碎片，为分析大量的楔形文字语料库提供了可扩展的基础，即使泥板有损坏和布局不规则也能适用。

TOOL · CL_104741 · Jun 21 · 17:31

AI流程自动化古籍楔形文字符号检测

研究人员开发了一种新的端到端楔形文字OCR流程，利用Deformable Detection Transformer (DETR)模型来自动化古籍符号检测。该系统集成了 the tablet-side extraction、line grouping 和 textual similarity evaluation，与以往的方法相比取得了显著改进。该流程应用于大量的 the tablet fragments 语料库，生成了数百万个符号检…

TOOL · CL_96842 · Jun 17 · 12:59

《玩具总动员5》打破观众评分纪录，但影评人评分创系列新低

《玩具总动员5》在烂番茄上获得了创纪录的95%观众评分，超越了该系列之前的作品。尽管观众反响热烈，但该片获得了93%的影评人评分，成为《玩具总动员》系列中影评人评分最低的电影。影片探讨了衰老以及技术对传统玩具的影响等主题，初步的票房预测显示其首周末国内票房可能超过2亿美元。

TOOL · CL_97639 · Jun 17 · 10:00

新的LARE框架通过编码低关注区域来增强文本-图像检索

研究人员推出了一种新颖的LARE（低关注区域编码）框架，旨在改进文本-图像检索，尤其是在包含许多对象的复杂场景中。LARE采用双编码策略，同时处理完整图像及其不太显眼的区域，生成更丰富多样的图像嵌入。为了便于评估，创建了一个名为Dense-Set的新数据集，该数据集来自COCO和Flickr30K，包含重新标注的图像，强调了被忽视的细节，从而能够对检索模型进行更严格的测试。

RESEARCH · CL_96056 · Jun 16 · 14:17

Reload-Mamba 通过新颖的状态空间建模增强语义分割

研究人员开发了 Reload-Mamba，这是一个利用 Mamba 类状态空间模型来增强多类别语义分割的新颖框架。该方法通过引入边界监督局部细节先验、类别不确定性感知重载门（Reload Gate）以及分层多级别重载机制（hierarchical multi-level Reload mechanism），解决了序列传播中的响应稀释问题。这些创新共同提高了模型恢复关键边界和细节敏感响应的能力，在 ADE20K 和 Cityscapes…