实体 Latent Action Models

Latent Action Models

PulseAugur coverage of Latent Action Models — every cluster mentioning Latent Action Models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_100176 · Jun 19 · 04:00

FlexLAM 引入可变长度潜在动作以改进基于视频的决策制定

研究人员推出了一种新颖的潜在动作学习方法 FlexLAM，该方法解决了现有模型中的瓶颈权衡问题。与使用固定容量瓶颈的先前方法不同，FlexLAM 采用通过嵌套 dropout 训练的可变长度潜在动作。这使得模型能够首先捕获紧凑的转换结构，并在需要时添加细节，而无需新的架构或损失函数。FlexLAM 在各种 token 预算和压力测试中均表现出改进的性能，表明它是潜在动作模型和视频预训练动作接口的通用升级。
TOOL · CL_56467 · May 28 · 04:00

新MaskLAM方法增强具身智能体训练

研究人员开发了一种名为MaskLAM的新方法，用于改进使用潜在动作模型（latent action models）的具身智能体（embodied agents）的训练。该技术解决了视频中与动作相关的视觉干扰物问题，这些干扰物可能导致模型学习不相关的运动，而不是智能体控制的动力学。MaskLAM通过将重建目标仅集中在属于智能体的像素上，有效地迫使潜在动作代表智能体的实际运动。这种方法在预训练期间不需要架构更改或额外的标签，并在基准任务上…
TOOL · CL_36079 · May 15 · 08:22

DiLA模型通过解耦学习推进了自监督世界模型

研究人员开发了DiLA，一种新颖的解耦潜在动作世界模型，旨在改进视频生成和动作抽象。DiLA通过将视觉细节分离到内容通路，将空间布局分离到结构通路，解决了动作抽象和生成保真度之间的权衡问题。这种解耦允许在不牺牲生成质量的情况下，实现连续的、语义结构化的潜在动作空间，从而在视频生成、动作迁移和视觉规划方面取得了卓越的性能。

FlexLAM 引入可变长度潜在动作以改进基于视频的决策制定

新MaskLAM方法增强具身智能体训练

DiLA模型通过解耦学习推进了自监督世界模型