研究人员开发了CLARITY,一个旨在评估自然语言到SQL(NL2SQL)系统在交互式环境中处理歧义和不可回答查询能力的新框架和基准测试。与之前的基准测试不同,CLARITY生成复杂的歧义,并模拟了多轮对话中的多样化用户交互。对Spider和BIRD等现有数据集的评估显示,即使是那些由大型语言模型驱动的当前领先的NL2SQL系统,在面对这些多方面歧义时,性能也会显著下降,并且常常无法 pinpoint 问题的确切来源。 AI
影响 凸显了当前NL2SQL系统存在的关键局限性,推动了在实际应用中改进歧义处理的需求。
排序理由 学术论文,介绍用于评估NL2SQL系统的新框架和基准测试。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →