Latent Action Models
PulseAugur coverage of Latent Action Models — every cluster mentioning Latent Action Models across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
FlexLAM 引入可变长度潜在动作以改进基于视频的决策制定
研究人员推出了一种新颖的潜在动作学习方法 FlexLAM,该方法解决了现有模型中的瓶颈权衡问题。与使用固定容量瓶颈的先前方法不同,FlexLAM 采用通过嵌套 dropout 训练的可变长度潜在动作。这使得模型能够首先捕获紧凑的转换结构,并在需要时添加细节,而无需新的架构或损失函数。FlexLAM 在各种 token 预算和压力测试中均表现出改进的性能,表明它是潜在动作模型和视频预训练动作接口的通用升级。
-
新MaskLAM方法增强具身智能体训练
研究人员开发了一种名为MaskLAM的新方法,用于改进使用潜在动作模型(latent action models)的具身智能体(embodied agents)的训练。该技术解决了视频中与动作相关的视觉干扰物问题,这些干扰物可能导致模型学习不相关的运动,而不是智能体控制的动力学。MaskLAM通过将重建目标仅集中在属于智能体的像素上,有效地迫使潜在动作代表智能体的实际运动。这种方法在预训练期间不需要架构更改或额外的标签,并在基准任务上…
-
DiLA模型通过解耦学习推进了自监督世界模型
研究人员开发了DiLA,一种新颖的解耦潜在动作世界模型,旨在改进视频生成和动作抽象。DiLA通过将视觉细节分离到内容通路,将空间布局分离到结构通路,解决了动作抽象和生成保真度之间的权衡问题。这种解耦允许在不牺牲生成质量的情况下,实现连续的、语义结构化的潜在动作空间,从而在视频生成、动作迁移和视觉规划方面取得了卓越的性能。