实体
WildChat
WildChat
PulseAugur coverage of WildChat — every cluster mentioning WildChat across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新研究通过逼真的用户画像来解决AI代理的训练问题
两篇新研究论文探讨了当前用户模拟器在训练AI代理方面的局限性。第一篇论文介绍了Persona Policies (PPol)方法,该方法可以为模拟器生成更逼真、更多样化的用户画像,从而使AI代理在与真实用户交互时更加鲁棒。第二篇论文通过衡量使用用户模拟器训练出的AI助手与真实人类的性能对比,量化了用户模拟器的效用,发现基于真实人类行为的用户模拟器比基于简单角色扮演LLM的用户模拟器能产生显著更好的结果。
-
New benchmark 'Prosa' evaluates LLMs on Brazilian Portuguese chats
Researchers have introduced Prosa, a new benchmark designed to evaluate Large Language Models (LLMs) using real user conversations in Brazilian Portuguese. This benchmark utilizes a rubric-based scoring system with mult…