研究人员推出了EntSQL,一个旨在评估企业环境中文本到SQL能力的新基准测试。与之前的基准测试不同,EntSQL专注于在长上下文、专有业务文档中进行SQL生成。该基准测试包含跨越五个业务领域的1,066个对齐的中英文示例,其中许多示例需要超出即时问题和模式的知识。当前系统在此任务上面临挑战,表现最好的模型在提供长篇文档时,在英文输入上的准确率仅为15.9%。 AI
影响 凸显了将LLM应用于企业特定数据的挑战,可能推动更具上下文感知能力的文本到SQL系统的发展。
排序理由 该集群描述了一个用于评估AI能力的新学术基准测试。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →