OpenAI推出了TruthfulQA,这是一个旨在评估语言模型在避免生成虚假信息方面表现如何的新基准。该基准包含38个类别的817个问题,专门设计用于引发基于常见人类误解的错误答案。早期测试表明,即使是表现最好的模型,在问题上的真实性也只有58%,远低于人类的94%,而且更大的模型往往不那么真实,这表明仅仅扩大模型规模可能不会提高其准确性。 AI
排序理由 OpenAI发布了一篇研究论文,介绍了一个用于评估模型真实性的新基准。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →