新的检索系统通过目录元数据提高文本到SQL的准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了一种名为Schema-First Retrieval的新检索系统，旨在提高文本到SQL系统的准确性。该系统嵌入目录元数据而非原始仓库数据，索引五种类型的目录对象：表、列、指标、关系和查询历史。通过采用并行向量搜索、 lineage expansion、cross-encoder reranking、workload memory和访问控制门，该系统旨在在SQL生成前提供更相关的模式上下文。在CRUSH4SQL和BIRD等数据集上的评估表明，表召回率显著提高，SQL执行错误大幅减少。 AI

影响这种方法可以显著提高数据分析自然语言界面的可靠性和可用性。

排序理由该集群包含一篇详细介绍新颖技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Adarsh Agrawal, Shashank Indukuri · 2026-06-30 04:00

Schema-First Retrieval: Embedding Catalogs for Natural Language Analytics

arXiv:2606.28387v1 Announce Type: cross Abstract: Enterprise text-to-SQL systems often fail before SQL is generated: the model receives the wrong schema context. Modern warehouses contain thousands of tables, abbreviated columns, informal metrics, hidden join conventions, and per…

报道来源 [1]

Schema-First Retrieval: Embedding Catalogs for Natural Language Analytics

相关实体

相关话题