研究人员引入了“制度理论”(Regime Theory),以指导大型语言模型(LLM)如何为给定输入选择最佳行动。该理论根据数据可估计的瓶颈,将控制器分为四类:从简单的固定行动到复杂的先验门控控制器。该框架旨在通过考虑潜在的改进以及实例级信号的可靠性等因素来优化决策。在各种基准测试中的实验表明,预测的控制器类别与经验上的获胜者相匹配,其中先验门控控制器在TextVQA上表现最佳。 AI
影响 为优化LLM决策提供了一个理论框架,有望提高复杂任务的效率和准确性。
排序理由 学术论文,详细介绍了LLM行动决策的新理论框架。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →