研究人员开发了一个名为AIriskEval-edu-db2的新数据集,用于训练和评估大型语言模型(LLMs)在K-12学生教育内容中评估教学风险的能力。该数据集包含来自科学、语言艺术和社会科学问题的1600多个解释,其中包含人类编写的解释以及模拟不同教学风险的LLM生成的解释。它还纳入了由专家教师验证的风险定位和描述的结构化注释。实验表明,在该数据集上微调本地Llama 3.1 8B模型,使其在风险检测和可解释性评估方面的性能接近更强大的前沿模型,同时保持隐私。 AI
影响 该数据集可以提高人工智能生成的K-12学生教育内容的安全性与可靠性。
排序理由 该集群描述了一个用于教育领域人工智能风险评估的新数据集,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →