实体 evidence lower bound

evidence lower bound

PulseAugur coverage of evidence lower bound — every cluster mentioning evidence lower bound across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

RESEARCH · CL_111230 · Jun 25 · 14:26

新工具分析贝叶斯推断中的局部质量行为

本文介绍了新的数学工具，即质量指数（Mass Index）和正则化扩展KL（RE-KL），用于分析贝叶斯推断中的局部质量行为。这些工具超越了KL散度（KL divergence）和ELBO等传统的全局目标，以表征贝叶斯更新如何影响局部质量。该研究为理解局部质量行为提供了理论框架，并包含实验说明。
RESEARCH · CL_91432 · Jun 15 · 04:00

新研究增强了用于鲁棒强化学习和安全规划的扩散模型

研究人员正在开发新方法来提高扩散模型在强化学习和规划任务中的鲁棒性和安全性。一种方法是鲁棒正则化策略迭代（RRPI），它通过针对最坏情况动力学进行优化来解决转移不确定性，并在 D4RL 基准测试中表现出强劲的性能。另一组论文介绍了 Kolmogorov Regression 和 DiRecT 等技术，通过提高轨迹规律性来增强扩散策略，从而实现确定性故障检测，并在推理过程中强制执行安全约束，而不会过度约束采样过程。这些进展旨在使扩散模型…
RESEARCH · CL_09803 · Apr 28 · 16:44

通过ELBO进行的贝叶斯模型选择可能导致过拟合，提醒从业者注意

一篇新论文探讨了证据下界（ELBO）与贝叶斯模型选择中的奥卡姆剃刀之间的关系。研究表明，基于ELBO的超参数学习可能导致过拟合，这与偏好更简单模型的奥卡姆剃刀原则相悖。令人惊讶的是，使用证据本身的贝叶斯模型选择有时会偏好过拟合模型，而ELBO则不会。研究结果表明，从业者应警惕降秩假设（在大模型中为便于处理而必需）如何影响模型选择。
RESEARCH · CL_06524 · Apr 28 · 04:00

V-GRPO方法通过更快、更稳定的强化学习增强去噪生成模型

研究人员推出了一种新颖的在线强化学习方法V-GRPO，旨在使去噪生成模型与期望结果对齐。该方法通过有效利用证据下界（ELBO）代理，克服了先前的局限性，其性能优于优化采样轨迹的方法。V-GRPO将ELBO代理与GRPO算法相结合，并采用技术来减少方差和控制梯度步长，从而提高了文本到图像合成的稳定性和性能。

新工具分析贝叶斯推断中的局部质量行为

新研究增强了用于鲁棒强化学习和安全规划的扩散模型

通过ELBO进行的贝叶斯模型选择可能导致过拟合，提醒从业者注意

V-GRPO方法通过更快、更稳定的强化学习增强去噪生成模型