研究人员开发了一个新的基准数据集,使用了来自特拉维夫大学的数据结构考试问题来评估大型语言模型的性能。该研究评估了包括 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5、Mathstral 7B 和 LLaMA 3 8B 在内的模型在闭卷和选择题方面的回答能力。研究结果为大型语言模型在计算机科学教育领域的当前能力提供了见解。 AI
影响 为大型语言模型在计算机科学教育领域提供了一个新的评估数据集,突出了当前的性能局限性。
排序理由 这是一篇研究论文,提出了一个新的基准数据集并对现有的大型语言模型进行了评估。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →