研究人员开发了“Pre-Flight”,这是一个旨在评估大型语言模型(LLMs)在航空业特定运营知识的新基准测试。该基准测试包含 300 道多项选择题,这些题目源自国际航空标准、法规和运营场景,由航空专业人士创建和审查。初步评估显示,即使是测试中最先进的模型(于 2026 年发布),准确率也仅达到 82.7%,远低于人类专家约 95% 的准确率。研究人员强调,此类特定领域的评估对于负责任地在航空运营中部署生成式人工智能至关重要。 AI
影响 强调了需要专门的基准测试来确保在航空等高风险行业中安全可靠地部署人工智能。
排序理由 该集群描述了一篇介绍用于评估大型语言模型的特定领域基准测试的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →