研究人员开发了“Pre-Flight”,这是一个旨在评估大型语言模型(LLMs)在航空业特定运营知识的新基准。该基准包含 300 道多项选择题,这些题目源自国际航空标准、法规和运营场景,由航空专业人士创建和审查。初步评估显示,即使是测试中最先进的模型(于 2026 年发布),准确率也仅为 82.7%,远低于人类专家约 95% 的准确率。研究人员强调,此类特定领域的评估对于生成式人工智能在航空运营中的负责任部署至关重要。 AI
影响 强调了在航空等高风险行业安全可靠地部署人工智能需要专门的基准。
排序理由 该集群描述了一篇介绍用于评估大型语言模型的特定领域基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →