RGB color model · PulseAugur

新型模拟器Great X弥合了6G研究的Sim2Real鸿沟

研究人员开发了“Great X”，一个基于Unreal Engine构建的新型多模态模拟器，旨在弥合6G无线研究中模拟数据与真实世界数据之间的鸿沟。该模拟器集成了视觉和电磁特性，实现了无线电和视觉输出之间的像素级一致性。Great X还具有跨多种数据类型（包括信道状态信息、RGB、深度、LiDAR和雷达）的精确帧级对齐功能，有助于创建大规模、同步的数据集。

TOOL · CL_156585 · Jul 22 · 04:00

新的SkyEV数据集旨在通过同步的RGB和事件数据改进无人机检测

研究人员推出SkyEV，一个旨在改进无人机（UAV）检测和跟踪的新开源数据集。现有数据集常常无法复制真实的对抗无人机场景，缺乏相机自身运动和小目标尺度等因素。SkyEV通过提供高度同步、未压缩的RGB和基于事件的数据来解决这一问题，捕捉了测试检测算法所必需的复杂真实世界条件。

TOOL · CL_154715 · Jul 21 · 04:00

基于RGB的框架使无人机能够识别机器人部署区域

研究人员开发了一个新的框架，仅使用RGB相机数据来分析可通行性，使无人机能够识别狭窄空间中地面机器人的最佳部署位置。该系统从RGB输入重建密集几何和语义地图，并且至关重要的是，无需LiDAR即可恢复度量尺度。在系留无人机-地面机器人平台上的实验表明，它在识别隐蔽空间检测任务的合适部署区域方面是有效的。

RESEARCH · CL_154704 · Jul 21 · 04:00

新框架旨在提升多模态大语言模型的三维空间推理能力

两篇新的研究论文解决了多模态大语言模型（MLLMs）在空间推理方面的局限性。第一篇论文介绍了Geo3R，一个无需训练的框架，它利用几何证据和结构化三维推理来减少与视角、物体方向和视点变化相关的幻觉。第二篇论文提出了GAP-MLLM，一个几何对齐的预训练范式，通过结合显式的几何监督（例如预测点图和语义标签）来提高MLLMs的三维空间感知能力。这两种方法都旨在增强模型理解和表示三维空间现实的能力，并在各种基准测试中优于现有方法。

RESEARCH · CL_154663 · Jul 20 · 15:08

新的GFrame框架利用三维几何改进图像篡改检测 · 跟踪2个来源

研究人员开发了一个名为GFrame的新框架，通过整合三维几何线索来改进图像篡改定位。传统方法依赖二维取证证据，当篡改区域无缝融合时，其有效性会降低。GFrame通过使用单目重建来提取深度和表面法线来解决这个问题，但关键在于它在利用重建的几何信息之前会估计其可靠性。这种方法将可靠的几何信息与RGB特征融合，提高了细粒度定位的准确性，并在预算限制下优于现有方法。

TOOL · CL_152106 · Jul 20 · 04:00

研究发现：深度数据可提升手术视觉基础模型性能

一项新研究探讨了在手术视觉基础模型中融入深度信息的影响。研究发现，使用RGB-D数据（如MultiMAE）进行预训练的模型，在各种手术任务上的表现显著优于仅使用RGB数据训练的模型。这种几何感知预训练还展现了卓越的数据效率，经过少量数据微调的模型超越了在完整数据集上训练的纯RGB模型。研究表明，多模态预训练是开发更强大的手术视觉系统的一条有前景的途径，且无需改变推理架构。

RESEARCH · CL_154617 · Jul 19 · 00:00

HarmoHOI框架合成多视角手部-物体交互视频

研究人员推出HarmoHOI，一个新颖的扩散框架，旨在合成同步的多视角手部-物体交互（HOI）视频。该系统通过联合生成2D外观和全局对齐的3D运动轨迹，解决了复杂手部运动和遮挡的挑战。HarmoHOI利用混合多视角扩散Transformer来共同建模RGB视频和3D点轨迹，最小化领域差距并适应现有先验。它还整合了全局运动对齐扩散来优化3D轨迹，在视觉质量、运动合理性和几何一致性方面实现了最先进的性能。

RESEARCH · CL_147845 · Jul 16 · 10:39

调查详细介绍了多模态行人重识别技术的进展

本调查论文全面概述了行人重识别（ReID）技术，超越了传统的单模态RGB图像，探索了跨模态和多模态方法。它详细介绍了可见光-红外（VI-ReID）、文本-图像（TI-ReID）、基于草图（Sketch-ReID）和非视线（NLOS）ReID的进展，讨论了融合不同传感器数据如何增强系统的鲁棒性。该论文还提出了一个基于Transformer的VI-ReID框架，并概述了未来的研究方向。

RESEARCH · CL_145754 · Jul 15 · 13:08

RainDancer 框架融合 RGB 和事件相机数据以实现高级视频去雨

研究人员开发了 RainDancer，一个结合 RGB 和事件相机数据的视频去雨新框架。该方法采用“先分解后交互”策略，在融合前分离每个数据流中的雨滴和背景成分。RGB 分支逐步分解帧特征，而事件分支则采用面向雨滴的脉冲神经网络来捕捉雨滴动力学。该方法旨在提高去雨视频的质量和鲁棒性，以用于下游感知任务。

TOOL · CL_141765 · Jul 14 · 04:00

新的 Traj-VLN 方法训练视觉语言模型在像素空间中进行导航

研究人员开发了 Traj-VLN，一种用于连续环境视觉语言导航（VLN-CE）的新方法。该方法侧重于训练视觉语言模型（VLM）直接在二维像素空间中生成导航轨迹，从而绕过了 VLM 通常缺乏的显式三维几何信息。该模型预测一系列像素坐标，以根据语言指令和历史观察指导具身智能体穿越未知环境。实验表明，这种像素空间轨迹监督显著提高了 VLN 的性能，在资源利用效率高的情况下取得了最先进的成果。

RESEARCH · CL_143385 · Jul 14 · 00:00

新的RINO模型统一视觉任务，以RGB作为通用语言

研究人员推出了一种新颖的视觉模型表述方法RINO（RGB In and RGB Out），它将各种视觉数据（如掩码和深度图）视为RGB图像。这种方法允许单一模型架构通过将它们转换为RGB到RGB的图像编辑问题来处理各种视觉任务，类似于语言模型处理文本的方式。RINO在理解和生成任务上都表现出强大的零样本性能，无需针对特定任务进行微调，旨在促进统一的视觉-语言系统。

TOOL · CL_138093 · Jul 12 · 06:08

AI代理现已在比特币Layer 2上执行原子加密货币互换 · 跟踪1个来源

第二个团队已独立开发并部署了一个能够对比特币Layer 2网络执行原子哈希时间锁定合约（HTLC）互换的AI代理。该代理由KaleidoSwap命名为KaleidoAgent，以非托管方式运行，通过闪电网络管理稳定币和RGB代币等资产。该代理利用Claude或OpenAI等LLM来驱动其交易策略和钱包功能，验证了结算层不需要交易裁判的概念。

RESEARCH · CL_139298 · Jul 10 · 10:51

新的立体匹配方法提高了准确性和效率 · 2篇论文集锦

两篇新研究论文介绍了立体匹配的新方法，立体匹配是一项计算机视觉任务，专注于从二维图像重建三维场景。WAVE-Stereo提出了一种结合相关体积和特征变形的方法，以提高准确性和效率，并在多个基准测试中取得了有竞争力的结果。第二篇论文《Rethinking Monocular Depth Embedding for Generalized Stereo Matching》侧重于将单目深度信息整合到立体匹配中，以增强泛化能力和准确性，尤其是…

TOOL · CL_139334 · Jul 9 · 00:00

扩散Transformer适配于密集预测任务

研究人员开发了一种名为ReChannel的新方法，该方法将预训练的扩散Transformer适配于密集预测任务。该方法不生成RGB图像，而是将token映射到任务原生输出，以极少的额外参数实现了最先进的成果。该方法通过重新解释token到patch的映射，利用RGB生成预训练中学到的语义和几何先验知识，生成像素正确的、任务原生的场。在六个密集预测任务上的评估表明，与现有方法相比，该方法具有竞争力，并且效率更高。

RESEARCH · CL_131396 · Jul 7 · 17:54

文本到图像模型通过ReChannel方法适配密集预测任务

研究人员开发了一种名为ReChannel的新方法，该方法利用大型文本到图像模型进行密集预测任务。ReChannel不生成新的RGB内容，而是将预训练模型适配为输出特定任务、像素精确的场。这种方法利用了像Diffusion Transformers (DiT)这样的模型的现有patch到token结构，将token映射到承载原生数量的输出patch。该方法在多个密集预测基准测试中取得了最先进的成果，包括无三联图抠图和KITTI深度估计，…

TOOL · CL_129539 · Jul 7 · 04:00

Utonia：统一的3D点云编码器推动感知与推理

研究人员推出了Utonia，这是一种新颖的自监督点变换器编码器，旨在处理来自不同领域的各种3D点云数据。这种统一的方法旨在创建一个能够理解来自遥感、LiDAR、RGB-D序列甚至纯RGB视频等来源数据的单一模型。通过在这些不同的领域学习一致的表示空间，Utonia展示了改进的感知能力，并推动了具身和多模态推理的进步，造福于机器人和视觉语言模型中的应用。

RESEARCH · CL_128416 · Jul 6 · 17:59

新型VLA模型实现无需校准的机器人控制

研究人员开发了一种新的视觉-语言-动作（VLA）模型，称为以摄像头为中心的VLA（CamVLA），该模型无需显式摄像头校准即可运行。该模型预测以摄像头为中心的动作和手眼矩阵，使其能够从单个单目RGB图像生成机器人基坐标系动作。CamVLA在模拟和真实机器人数据的不同、未见过的视角下均表现出更高的成功率，使其在摄像头设置经常变化的真实场景中更加鲁棒且易于部署。

RESEARCH · CL_128618 · Jul 6 · 17:58

新的InFlux++数据集增强了动态相机内参估计

研究人员推出了InFlux++，这是一个新的数据集和基准，旨在改进从RGB图像估计动态相机内参。这一进展解决了当前3D计算机视觉算法的局限性，这些算法通常假设相机内参固定，而这在现实世界的视频中并不成立。InFlux++包含一个大型合成数据集，拥有超过441,000帧，以及一个扩展的真实世界基准，拥有超过514,000帧，提供了更多样化的场景、相机运动以及变焦和对焦等内参变化。

RESEARCH · CL_119359 · Jun 30 · 16:25

MVP-Nav框架赋能具身智能体进行仅RGB导航

研究人员推出MVP-Nav，一个新颖的框架，专为具身智能体设计，使其能够仅使用RGB摄像头输入在环境中导航。该系统解决了仅RGB感知固有的深度不确定性和语义-物理不匹配的挑战。MVP-Nav通过将2D语义实例投影到3D边界框中，从单目视图重建3D物理占用，创建全局空间语义表示。然后，它利用多层价值地图（MVM）将语义优先级与重建的几何结构相结合，实现物理基础的规划，并在零样本物体导航基准测试中取得最先进的性能。

TOOL · CL_117671 · Jun 30 · 04:00

新的SWAM模型支持单通道RGB输入实现高效具身导航

研究人员开发了SWAM（空间感知世界动作模型），一个新颖的具身导航框架，它在单次通过中联合生成中间视觉序列和动作轨迹。与以前以验证为中心的方法不同，SWAM直接从起始和目标RGB观测合成与目标一致的路径，提高了空间可行性和效率。尽管使用深度伪标签进行训练，但该模型在推理时仅需要单目RGB输入，并在各种实验中展示了优于最先进规划器的性能。