PulseAugur
实时 17:54:51
中文(ZH) 美团LongCat开源 VitaBench2.0

美团 LongCat 发布 VitaBench 2.0 用于 LLM 用户建模

美团的 LongCat 团队发布了 VitaBench 2.0,这是一个评估基准,旨在评估大型语言模型在长期、动态用户交互场景中的表现。新版本建立在去年十月发布的 VitaBench 1.0 的基础上,侧重于模型在现实生活中进行个性化和主动行动的能力。 AI

影响 为评估 LLM 在长期用户交互中的能力提供了新标准。

排序理由 发布了用于评估 LLM 的新基准。 [lever_c_demoted from research: ic=1 ai=1.0]

在 36氪 (36Kr) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

美团 LongCat 发布 VitaBench 2.0 用于 LLM 用户建模

报道来源 [1]

  1. 36氪 (36Kr) TIER_1 中文(ZH) ·

    Meituan LongCat Open Sources VitaBench 2.0

    36氪获悉,自去年10月发布了VitaBench 1.0,美团LongCat团队再次推出VitaBench 2.0。VitaBench 2.0是首个真实生活场景下面向长期动态用户建模的智能体评测基准,它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。