PulseAugur
实时 11:56:27
实体 Conservative Q-Learning (CQL)

Conservative Q-Learning (CQL)

PulseAugur coverage of Conservative Q-Learning (CQL) — every cluster mentioning Conservative Q-Learning (CQL) across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_115151 ·

    新的GLAN框架增强了个性化着陆页推荐

    研究人员开发了GLAN,一个新颖的序列建模框架,旨在改进在线平台上的个性化着陆页推荐。GLAN通过捕捉跨日用户动态和分解会话级反馈以实现更精确的局部监督,解决了先前强化学习方法的局限性。在快手平台上的在线实验表明,GLAN在日活跃用户和用户生命周期方面取得了显著的改进。

  2. TOOL · CL_51052 ·

    SeqRoute框架优化序贯对话中的大语言模型路由

    研究人员开发了SeqRoute,一个用于大语言模型(LLM)系统中多轮对话查询路由的新型框架。与以往将每个查询独立处理的方法不同,SeqRoute考虑了用户会话的序贯性以及全局计算预算。它采用离线强化学习来做出路由决策,从而为后续可能更关键的交互策略性地节省资源,以此降低成本并防止预算耗尽。