中文(ZH) 美团LongCat开源 VitaBench2.0

美团 LongCat 发布 VitaBench 2.0 用于 LLM 用户建模

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 12:11

美团的 LongCat 团队发布了 VitaBench 2.0，这是一个评估基准，旨在评估大型语言模型在长期、动态用户交互场景中的表现。新版本建立在去年十月发布的 VitaBench 1.0 的基础上，侧重于模型在现实生活中进行个性化和主动行动的能力。 AI

影响为评估 LLM 在长期用户交互中的能力提供了新标准。

排序理由发布了用于评估 LLM 的新基准。 [lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

36氪 (36Kr) TIER_1 中文(ZH) · 2026-06-25 12:11

Meituan LongCat Open Sources VitaBench 2.0

36氪获悉，自去年10月发布了VitaBench 1.0，美团LongCat团队再次推出VitaBench 2.0。VitaBench 2.0是首个真实生活场景下面向长期动态用户建模的智能体评测基准，它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。