Diffusion Transformer

LingBot-Video：开源专家混合模型视频用于具身AI发布

研究人员推出LingBot-Video，一个专为具身智能应用设计的创新视频预训练框架。该框架采用了专家混合（MoE）架构、扩散Transformer（DiT）和专门的数据增强技术。该系统使用多维度奖励系统进行训练，以确保物理合理性和任务完成，旨在弥合数字创意与物理机器人之间的差距。

RESEARCH · CL_131396 · Jul 7 · 17:54

文本到图像模型通过ReChannel方法适配密集预测任务

研究人员开发了一种名为ReChannel的新方法，该方法利用大型文本到图像模型进行密集预测任务。ReChannel不生成新的RGB内容，而是将预训练模型适配为输出特定任务、像素精确的场。这种方法利用了像Diffusion Transformers (DiT)这样的模型的现有patch到token结构，将token映射到承载原生数量的输出patch。该方法在多个密集预测基准测试中取得了最先进的成果，包括无三联图抠图和KITTI深度估计，…

SIGNIFICANT · CL_129764 · Jul 7 · 07:30

ByteDance 的 Seedance 2.0 模型推动盈利和行业领先地位

ByteDance 的 Seedance 2.0 模型标志着该公司在大模型领域，尤其是在视频生成方面，取得了重要的转折点。该模型在参数数量和丰富的训练数据方面进行了优化，据报道，其在中国取得了行业领先的性能，在某些方面超越了 Kimi 和 DeepSeek 等竞争对手。Seedance 2.0 也被证明是 ByteDance 的一项盈利业务，以高利润率对其火山引擎 MaaS 收入做出了显著贡献，并为其抖音等内容平台带来了正向反馈循环。

TOOL · CL_129463 · Jul 7 · 04:00

Aura 框架通过 VLM 对齐增强多主体视频生成

研究人员推出 Aura，一个专为高保真和身份一致性视频生成设计的新框架，在多主体场景中表现尤为出色。该系统利用 AI 导演级别的字幕进行详细场景描述，并采用视觉语言模型 (VLM) 从文本和视觉参考中提取语义特征。Aura 通过两阶段对齐策略弥合了 VLM 和 Diffusion Transformer (DiT) 模型之间的差距，并引入了主体感知 RoPE-Shift 机制以减少常见的生成伪影。

TOOL · CL_129165 · Jul 7 · 04:00

新框架揭示了几何一致性是稳定扩散模型（stable diffusion models）的关键

研究人员开发了一个统一的框架来分析几何变换对 UNets、ViTs 和 DiTs 等扩散模型架构的影响。通过将二面体群元素应用于中间隐藏状态，他们观察到几何一致的变换增强了特征稳定性，而不一致的变换则会导致特定于架构的失败。这项研究将几何一致性确立为稳定视觉和扩散模型中空间结构隐藏状态干预的关键原则，其研究结果得到了 Stable Diffusion 2.1、ViTs 和 DiTs 分析的支持。

TOOL · CL_131101 · Jul 7 · 00:00

RynnWorld-Teleop 使用生成式世界模型进行机器人数据合成

研究人员推出 RynnWorld-Teleop，这是一个利用生成式世界模型进行机器人数字遥操作的新颖系统。该方法用合成训练数据取代物理机器人交互，实现了高效的零样本 Sim2Real 迁移并提升了真实世界性能。该系统集成了深度感知骨骼条件和扩散 Transformer，用于渐进式人到机器人训练，在单个 H100 GPU 上实现了实时生成速度。仅在 RynnWorld-Teleop 数据上训练的策略已在各种双臂任务中有效迁移，并且用这些…

RESEARCH · CL_128640 · Jul 6 · 14:18

UNIVERSE模型统一了自动驾驶的视频预测和轨迹生成

研究人员推出 UNIVERSE，这是一种用于自动驾驶的新型统一模型，集成了未来视频预测和轨迹生成。与之前使用独立架构的方法不同，UNIVERSE 采用单一的掩码调制 Diffusion Transformer 来共同训练视频潜在表示和轨迹 token，从而允许通过视频学习的动力学直接监督轨迹去噪。这种统一的方法增强了跨域动作泛化能力，并实现了 4.3 倍加速的仅轨迹推理，同时保持了规划精度。

RESEARCH · CL_128367 · Jul 5 · 18:00

新研究探讨扩散模型在偏见缓解、一致性和效率方面的进展 · 跟踪6个来源

多篇研究论文探讨了扩散模型的进展，重点是提高其效率、减少偏见和理解其一致性。一篇论文介绍了CO-ALIGN，一种概念图对齐方法，用于在保持生成质量的同时缓解文本到图像模型的偏见。另一项理论分析收紧了扩散模型“分数匹配差距”的界限，表明分数近似质量在低噪声尺度下至关重要。第三篇论文使用随机矩阵理论来解释在不同数据子集上训练的扩散模型的一致性，将其与共享的高斯统计和数据属性联系起来。此外，研究还调查了少步扩散模型的方法，提出了可分解探针来…

RESEARCH · CL_124403 · Jul 3 · 10:56

新的 Krea-2 LoRA 模型支持深度控制的图像生成

新发布的 LoRA 模型 Patil/Krea-2-depth-controlnet 允许用户在通过文本提示改变图像内容和风格的同时，保持图像的 3D 结构。这种控制是通过使用 Depth Anything V2 提取深度图并将其集成到 Krea-2 生成过程中实现的。该模型兼容 Krea-2 Raw 和 Krea-2 Turbo，即使有提示引导也能保持高度的深度一致性。

TOOL · CL_123296 · Jul 3 · 04:00

新的DCGNet改进了水下显著目标检测

研究人员开发了一个名为DCGNet的新网络，以改进水下图像中的显著目标检测。该网络通过引入一个用于尺度变化目标的动态多粒度模块和一个估计光衰减和后向散射的水下物理先验模块来解决低对比度和颜色失真等挑战。此外，一个水下空间高斯模块增强了以目标为中心的区域，并且一个扩散Transformer精炼了特征。在多个数据集上的实验表明，DCGNet的性能优于现有方法。

TOOL · CL_123341 · Jul 2 · 17:59

PointDiT 通过像素空间扩散 Transformer 简化 3D 重建

研究人员开发了 PointDiT，一种新颖的像素空间扩散 Transformer，可简化单图像 3D 重建。该模型基于标准的 ViT 架构，并以 DINOv3 图像 token 为条件，直接在 3D 点图块上运行。PointDiT 通过超越更复杂的基于潜在空间的扩散模型和混合替代方案，在锐利的几何结构和提高透明物体等挑战性区域的鲁棒性方面取得了最先进的成果。

TOOL · CL_119725 · Jul 1 · 04:00

Flow-Opt 使用流匹配加速多机器人轨迹优化

研究人员开发了 Flow-Opt，这是一种新颖的方法，可以使集中式多机器人轨迹优化在计算上更易处理。该方法利用带有扩散变换器的流匹配模型，并通过置换不变编码器进行增强，以生成候选轨迹。一个带有神经网络预测初始化的学习安全过滤器可确保快速满足约束，从而能够在毫秒内为杂乱环境中数十个机器人生成轨迹，显著优于现有方法。

TOOL · CL_119646 · Jul 1 · 04:00

新模块提升 Diffusion Transformer 图像质量

研究人员引入了一个质量表示模块（QRM），旨在增强文本到图像的扩散模型，特别是 Diffusion Transformer (DiT)。这个轻量级模块从现有模型输入中学习一个质量感知表示，并生成向量来调整 DiT transformer 块内的自适应 LayerNorm 调制。通过注入这种质量敏感信号，QRM 旨在提高生成图像的保真度和一致性，而无需改变核心扩散过程或采样计划。实验表明，与标准的 DiT 模型相比，QRM 能够持续提高图像质量。

TOOL · CL_119596 · Jul 1 · 04:00

新理论解释并修复了MeanFlow生成模型中的不稳定性

一篇新发表在arXiv上的论文引入了一个理论框架，以解决在生成模型的MeanFlow训练中遇到的不稳定性问题。研究发现，原始MeanFlow损失中条件速度场被误用，错误地同时充当了回归目标和控制变量。作者推导出了控制变量角色的最优系数，统一了几种并发的补救措施，并证明了这个方差最优系数并不总是与产生最佳生成质量的系数一致。

SIGNIFICANT · CL_118267 · Jun 30 · 05:53

虎牙发布VAM 1.0，首个24小时实时互动AI数字人

虎牙发布了VAM 1.0，一个实时多模态数字人模型，仅需一张照片输入即可进行对话、唱歌、跳舞和玩游戏。该模型基于DiT架构构建，可连续运行超过24小时，输出分辨率为480x832，帧率为28fps。与以往感觉像预录视频的AI数字人不同，VAM 1.0提供了真正的实时互动，包括处理打断、适应用户称呼偏好以及保持对话流畅性。该技术解决了时间稳定性、交互能力和计算效率等关键行业挑战，旨在增强直播、电商和新闻播报等应用。

TOOL · CL_118089 · Jun 30 · 04:00

新的DCGrasp系统生成可控的3D手部-物体交互

研究人员开发了DCGrasp，一种用于生成3D手部-物体交互的新颖系统。该系统采用距离感知可控抓取生成方法，利用Diffusion Transformer创建距离剖面。该剖面捕捉手部顶点与物体点之间的空间关系，从而实现灵活的控制和在各种物体几何形状上的强大泛化能力。生成的抓取通过优化进行精炼，以确保一致性和物理合理性，为合成逼真的手部-物体交互提供了一个强大的流程。

TOOL · CL_118049 · Jun 30 · 04:00

SAFE-DiT 框架加速高分辨率扩散 Transformer 图像生成

研究人员开发了 SAFE-DiT，一个旨在加速使用扩散 Transformer 的高分辨率图像生成的新框架。该方法解决了“掩码诱导调度税”（MIDT），这是一个系统瓶颈，通过将区域计算编码为注意力掩码来减慢推理速度。SAFE-DiT 将掩码消除与空间调度分开，从而实现更快的处理和更少的内存使用，尤其是在非常高的分辨率下。

TOOL · CL_118034 · Jun 30 · 04:00

新的DTI范式增强了生成人脸视频超分辨率

研究人员为生成人脸视频超分辨率（GFVSR）引入了一种名为动态轨迹初始化（DTI）的新范式。该方法将GFVSR重新构建为一种由输入驱动的方向性恢复过程，旨在在不牺牲感知质量的情况下提高保真度。DTI利用一种新颖的增强和注入条件机制来预训练的DiT骨干网络，并通过信号噪声比（SNR）对齐训练的判别器指南来动态设置起始采样点。该方法通过微小的模型调整和微调实现了最先进的性能，表明LPIPS是评估人脸视频超分辨率的一个特别令人信服的指标。

RESEARCH · CL_117419 · Jun 29 · 16:51

EcoVideo 框架优化了 DiT 视频生成在云边协同中的表现

研究人员推出 EcoVideo，一个旨在优化 Diffusion Transformer (DiT) 模型视频生成的新框架，特别是在云边环境中。该系统根据信息密度动态解耦帧，信息密度通过自注意力熵估算。高熵关键帧由基于云的大模型处理，而低熵帧则通过轻量级边缘模型进行运动感知插值重建。EcoVideo 根据可用带宽和计算能力调整其处理方式，在受限的边缘环境中实现了高达 2.9 倍的速度提升，同时保持了质量。

RESEARCH · CL_117433 · Jun 29 · 14:34

MUSE论文将扩散模型时间步重新用于高效多任务视觉

研究人员推出 MUSE，一种使用一步扩散模型进行多任务密集预测的新型无参数方法。MUSE 将固定的正弦时间步嵌入重新用作内源性任务引导信号，无需笨重的适配器或可学习的任务标记。该方法通过流形解耦进行解释，在 U-Net 和 DiT 等各种数据集和架构上均表现出竞争力，为通用视觉模型提供了一条高效的路径。