实体 CounterFactual Policy Optimization

CounterFactual Policy Optimization

PulseAugur coverage of CounterFactual Policy Optimization — every cluster mentioning CounterFactual Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

时间线

2026-06-22 research_milestone Researchers proposed CounterFactual Policy Optimization (CFPO) to improve multimodal reasoning in Large Vision-Language Models. 来源

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_105159 · Jun 22 · 11:51

新的CFPO框架增强了LVLM的多模态推理能力

研究人员推出了一种名为逆事实策略优化（CFPO）的新框架，旨在提高大型视觉语言模型（LVLM）的多模态推理能力。CFPO通过强制视觉感知与文本推理之间的因果一致性来解决基础性失败和幻觉漂移问题。该方法与GRPO和DAPO等现有算法集成，无需额外的监督或奖励模型。实验表明，CFPO显著提高了推理保真度，优于标准的RL基线和当前最先进的感知感知方法。

新的CFPO框架增强了LVLM的多模态推理能力