vision transformer · PulseAugur

MegaFlow模型在零样本光流估计方面达到最先进水平

研究人员开发了MegaFlow，这是一种新颖的模型，旨在无需领域特定微调即可准确估计大位移光流。通过将光流估计视为全局匹配问题并利用预训练的Vision Transformer特征，MegaFlow能有效捕捉大范围运动。该模型包含轻量级的迭代细化以提高亚像素精度，在各种光流和长距离点跟踪基准测试中取得了最先进的零样本性能。这种方法提出了一种可泛化的运动估计的统一范式。

RESEARCH · CL_133212 · Jul 8 · 15:49

新型视觉Transformer可合成对比增强脑部MRI

研究人员开发了AA-ViT，这是一种具有解剖结构感知能力的视觉Transformer，旨在从对比增强前图像合成对比增强脑部MRI扫描。该方法旨在通过克服标准MRI的局限性和造影剂的相关风险来改善肿瘤定位和诊断。AA-ViT利用结构和频率引导来保留解剖边界和病灶细节，在PSNR和SSIM等定量指标上优于现有方法。医疗专业人员进行的初步临床验证显示出有希望的结果，表明其在降低医疗成本和患者风险方面具有潜在应用。

RESEARCH · CL_129278 · Jul 7 · 04:00

AI框架通过可解释推理和多模态数据增强青光眼诊断

研究人员开发了先进的青光眼诊断AI框架，旨在改进不透明的深度学习模型。GlaKG利用知识图谱，通过整合生物标志物、临床规则和图像特征来提供可追溯的推理，在分类和风险分层方面实现了高精度。GlaBoost采用多模态梯度提升方法，结合眼底图像嵌入、基于文本的评估和结构化生物标志物，以增强可解释的预测。另一个框架使用带有堆叠集成（stacking ensemble）的Vision Transformer (ViT)来处理眼底图像和临床数据，…

TOOL · CL_129192 · Jul 7 · 04:00

图Transformer框架通过保持不变性来增强图像分类

研究人员开发了SuperGT，一个基于图Transformer的框架，旨在改进超像素图像分类。这种新方法旨在捕捉图像数据中的长距离依赖关系并保持平移/旋转不变性，解决了先前图神经网络方法中的局限性。SuperGT在CIFAR-10数据集上进行了评估，与许多现有基线相比，表现更优，并且在不需要特定边界点坐标的情况下取得了与最先进的ShapeGNN相当的结果。

TOOL · CL_128880 · Jul 7 · 04:00

视觉模型在中文文本处理方面优于词元嵌入

一项发表在arXiv上的新研究探索了Transformer模型的一种替代输入表示方法，挑战了使用离散词元嵌入的普遍做法。研究人员发现，使用经过视觉编码器处理的汉字完整字形图像，其性能显著优于传统的词元嵌入。这种基于视觉的方法在准确性上实现了21%的相对提升，并且与基于词元的基线模型相比，训练周期缩短了一半。研究表明，这种优势特定于像中文这样的基于字符的书写系统，因为它没有直接迁移到英文。

TOOL · CL_128848 · Jul 7 · 04:00

新型三模态 Transformer 提升森林生物量估算能力

研究人员开发了一种名为三模态相干协同注意力 Transformer (TCCT) 的新型深度学习模型，以改进热带森林地上生物量 (AGB) 的估算。该模型独特地融合了来自 Landsat-5 的光学反射数据和来自 P 波段和 L 波段的复杂值极化干涉测量 (PolInSAR) 数据。TCCT 使用复杂值编码器来保持相位相干性，并采用协同注意力机制来动态调整对光学或 SAR 数据的依赖程度，从而缓解云层覆盖和信号饱和等问题。经过微调后，…

RESEARCH · CL_129413 · Jul 3 · 13:46

HashViT 引入原生哈希 Token 学习，实现高效图像检索

研究人员开发了 HashViT，一个新颖的 Vision Transformer 框架，专为大规模图像检索中的原生哈希 Token 学习而设计。与之前在量化后生成二值码的方法不同，HashViT 在 Transformer 架构中集成了一个专用的 HASH Token。这个 HASH Token 由一个 Hash Register 和一个 Semantic Workspace 组成，允许直接生成二值码并保留连续的语义信息。Hash R…

TOOL · CL_123301 · Jul 3 · 04:00

新的FoundDP框架增强了双像素深度估计

研究人员开发了FoundDP，一个增强了双像素（DP）相机度量深度估计的新框架。该方法将源自DP成像的度量深度与来自Vision Transformer（ViT）基础模型的结构先验相结合。FoundDP通过对齐ViT特征来解决纹理缺失或低对比度区域的局限性，以减轻DP散焦模糊造成的退化，从而提高结构保真度和度量精度。

TOOL · CL_123174 · Jul 2 · 17:55

新方法增强 LVLM 对印刷攻击的鲁棒性

研究人员开发了一种新方法，以提高大型视觉语言模型（LVLM）对抗印刷攻击的鲁棒性，印刷攻击是指图像中的无关文本会误导模型。这种无需训练的方法利用了机械可解释性来识别视觉 Transformer（ViT）中负责编码词汇信息的特定组件。通过在不重新训练的情况下选择性地调整这些已识别电路中的注意力权重，该方法显著增强了在对象分类任务中对抗印刷攻击的鲁棒性，并提高了在 RIO-Bench 等基准测试上的视觉问答任务的准确性。

RESEARCH · CL_127590 · Jul 2 · 08:11

新的Moonstone基准和模型推动月球遥感发展

研究人员开发了Moonstone，一个专为月球遥感设计的多模态基础模型和基准。该项目解决了月球数据集碎片化以及该领域机器学习缺乏标准化评估方法的问题。该项目引入了一个新颖的预训练数据集，包含来自五个月球任务的七个仪器家族的28个通道，以及一个模态分组掩码自编码器（MG-MAE）架构。该模型包含诸如缺失数据注意力掩码和光谱连续性正则化等功能，以确保物理上合理的重建。MG-MAE模型预训练的特征在分类、回归和分割等各种下游任务上均优于现有基线。

TOOL · CL_121164 · Jul 1 · 12:16

新的自监督学习方法增强了对称数据的表示

研究人员推出了一种名为 Mirror-Fusion-Augmented Self-Supervised Learning (MFASSL) 的框架，旨在改进表示学习，尤其适用于具有双边对称性的数据。与强制执行严格翻转不变性的标准方法不同，MFASSL 通过创建镜像配对视图并使用 Mirror-Fusion Attention 模块来引入软反射先验。这种方法允许镜像区域之间进行自适应交互，同时保留非对称信息。在 CheXpert 和 C…

TOOL · CL_119582 · Jul 1 · 04:00

AI利用新发异常检测技术检测临床前组织病理学中的毒性

研究人员开发了一个AI框架，利用全切片图像检测临床前组织病理学中的毒性。该系统可以识别健康组织、已知病理，并标记出具有新发异常的样本。通过使用低秩自适应微调Vision Transformer并采用马氏距离进行异常检测，该方法旨在提高药物开发中毒性评估的效率和规模。

RESEARCH · CL_119357 · Jun 30 · 16:43

FlexViT：FPGA加速器提升边缘视觉Transformer性能

研究人员开发了FlexViT，这是一款灵活的基于FPGA的加速器，旨在提高边缘设备上视觉Transformer (ViT) 模型的效率。该加速器通过将现代ViT的异构架构（结合了卷积层和全连接层）映射到一个统一的INT8 GEMM引擎上，解决了其异构架构带来的挑战。FlexViT采用双模式数据流和深度优先分块策略来优化性能并降低内存带宽需求。评估显示，FlexViT在加速器执行的层上可实现高达2.74倍的加速，与纯CPU执行相比，整体…

TOOL · CL_126261 · Jun 30 · 15:37

人工智能代理加速橡树岭国家实验室的植物表型发现

橡树岭国家实验室的研究人员开发了一种代理式人工智能框架，以加速植物表型的科学发现。该系统使用一个联合科学家代理（Co-Scientist Agent）将自然语言问题转化为分析计划，并使用一个计算代理（Compute Agent）在Frontier超级计算机上利用Vision Transformers执行这些计划。该框架使科学家能够以秒为单位交互式地分析海量数据集，将手动、事后分析的过程转变为自主发现平台。

RESEARCH · CL_119451 · Jun 30 · 15:37

AI代理在Frontier超级计算机上加速植物表型发现

研究人员开发了一种代理式人工智能框架，旨在加速植物表型科学发现。该系统将高通量数据生成设施转变为交互式发现平台，科学家们可以在其中与AI代理协作。一个“联合科学家代理”将自然语言查询转化为分析计划，而一个“计算代理”则利用Frontier超级计算机上的Vision Transformers执行分割和性状提取等任务。该框架将分析时间从几天或几周显著缩短到几秒钟，从而实现快速迭代和洞察生成。

TOOL · CL_118032 · Jun 30 · 04:00

新的SLIDE-IQA方法增强了局部失真图像的质量评估

研究人员开发了一种名为SLIDE-IQA的新方法，以改进图像质量评估，特别是针对具有局部失真的图像。现有的自监督学习模型通常难以处理这些特定类型的退化，因为它们将合成失真均匀地应用于整个图像。SLIDE-IQA利用双分支Vision Transformer和一种新颖的阈值有界排除机制，以更好地捕捉局部图像失真的类型和空间尺度。这种仅在合成数据上训练的方法，在保持标准图像质量评估基准测试竞争性性能的同时，对局部问题表现出增强的敏感性。

TOOL · CL_118005 · Jun 30 · 04:00

CLEAR-MoE 将冻结的 Vision Transformers 转换为稀疏 MoE 模型

研究人员开发了 CLEAR-MoE，这是一种新颖的训练后方法，可以将冻结的 Vision Transformers (ViTs) 转换为稀疏专家混合 (MoE) 模型，而无需更改原始骨干网络的权重。该技术涉及一个四阶段的流程，对前馈网络层进行评分和分解，训练轻量级路由器，并分派 token。在各种 ViT 骨干网络上进行的实验表明，CLEAR-MoE 可以保留几乎所有密集模型的准确性，其中共享的奇异值分解 (SVD) 基础对于保持性能…

RESEARCH · CL_119368 · Jun 30 · 00:00

MuSViT：首个用于乐谱表示的基础视觉模型发布

研究人员开发了MuSViT，这是一种专门用于理解乐谱的新型基础视觉模型。该模型是一个在IMSLP数百万份乐谱上预训练的Vision Transformer (ViT)，在乐谱识别和符号检测等任务上表现出色。与通用视觉编码器相比，MuSViT表现出更优越的性能，表明其专门的表示能够捕捉乐谱独特的符号结构。

RESEARCH · CL_117413 · Jun 29 · 17:46

新的AI方法增强视频中的面部表情分析

研究人员开发了新的方法，利用 Vision Transformers (ViTs) 改进视频中的面部表情理解。其中一种方法 MiRA 是一个即插即用框架，它重新分配注意力以关注细微的面部动态，而无需添加可训练参数，并提供精确模式和高效近似模式。另一种方法 FEDN 将面部表情识别和辨别统一为单一的端到端检测任务，利用不同尺度的时域注意力模块来捕捉细粒度的局部动态和更广泛的时域上下文。这两种方法都在面部表情识别基准测试中展示了改进的性能。

RESEARCH · CL_115319 · Jun 26 · 09:45

新系统使用多属性潜在空间可视化腕表收藏

研究人员开发了一种新颖的系统，通过创建多属性潜在空间来视觉分析大型腕表收藏。该系统利用独立的表盘颜色和设计属性图，并结合了用于分割的U-Net和用于手表类型预测的Vision Transformer。该方法扩展了UMAP以组合特定属性的邻域图，并包含一个类感知布局项以实现更好的可视化。