研究人员推出了Prosa,这是一个新的基准,旨在通过巴西葡萄牙语的真实用户对话来评估大型语言模型(LLM)。该基准使用基于评分标准的评分系统,并结合多裁判过滤来减轻整体LLM作为裁判评估中常见的偏见。Prosa包含1000个WildChat对话,旨在通过增加模型之间的分数差距来提高LLM评估的区分能力。 AI
影响 为巴西葡萄牙语中的LLM引入了新的评估基准,有可能改进模型评估和比较。
排序理由 该集群包含一篇介绍LLM评估新颖基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →