实体 A-OKVQA

A-OKVQA

PulseAugur coverage of A-OKVQA — every cluster mentioning A-OKVQA across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_22506 · May 7 · 14:28

新理论通过选择最优控制器类别来指导LLM的行动决策

研究人员引入了“制度理论”（Regime Theory），以指导大型语言模型（LLM）如何为给定输入选择最佳行动。该理论根据数据可估计的瓶颈，将控制器分为四类：从简单的固定行动到复杂的先验门控控制器。该框架旨在通过考虑潜在的改进以及实例级信号的可靠性等因素来优化决策。在各种基准测试中的实验表明，预测的控制器类别与经验上的获胜者相匹配，其中先验门控控制器在TextVQA上表现最佳。