PulseAugur
实时 19:42:26
实体 Persona2Web

Persona2Web

PulseAugur coverage of Persona2Web — every cluster mentioning Persona2Web across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_53540 ·

    新基准VitaBench 2.0测试LLM代理的个性化能力

    研究人员推出了VitaBench 2.0,这是一个旨在评估大型语言模型代理在长期用户交互中的个性化和主动性能力的新基准。该基准通过专注于从零散的日常交互中推断和利用用户偏好来解决现有评估的局限性,这是有效协作的一个关键方面。使用VitaBench 2.0进行的实验表明,即使是最先进的LLM在实际个性化方面也面临挑战,突显了当前能力与代理的实际需求之间存在的显著差距。