PulseAugur
实时 10:17:43
实体 Pre-flight

Pre-flight

PulseAugur coverage of Pre-flight — every cluster mentioning Pre-flight across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_122982 ·

    新的“Pre-Flight”基准测试揭示了大型语言模型在航空知识方面的差距

    研究人员开发了“Pre-Flight”,这是一个旨在评估大型语言模型(LLMs)在航空业特定运营知识的新基准测试。该基准测试包含 300 道多项选择题,这些题目源自国际航空标准、法规和运营场景,由航空专业人士创建和审查。初步评估显示,即使是测试中最先进的模型(于 2026 年发布),准确率也仅达到 82.7%,远低于人类专家约 95% 的准确率。研究人员强调,此类特定领域的评估对于负责任地在航空运营中部署生成式人工智能至关重要。