实体 VitaBench 2.0

VitaBench 2.0

PulseAugur coverage of VitaBench 2.0 — every cluster mentioning VitaBench 2.0 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_110446 · Jun 25 · 12:11

美团 LongCat 发布 VitaBench 2.0 用于 LLM 用户建模

美团的 LongCat 团队发布了 VitaBench 2.0，这是一个评估基准，旨在评估大型语言模型在长期、动态用户交互场景中的表现。新版本建立在去年十月发布的 VitaBench 1.0 的基础上，侧重于模型在现实生活中进行个性化和主动行动的能力。
RESEARCH · CL_53540 · May 26 · 00:00

新基准VitaBench 2.0测试LLM代理的个性化能力

研究人员推出了VitaBench 2.0，这是一个旨在评估大型语言模型代理在长期用户交互中的个性化和主动性能力的新基准。该基准通过专注于从零散的日常交互中推断和利用用户偏好来解决现有评估的局限性，这是有效协作的一个关键方面。使用VitaBench 2.0进行的实验表明，即使是最先进的LLM在实际个性化方面也面临挑战，突显了当前能力与代理的实际需求之间存在的显著差距。