一篇新论文使用BIRD基准评估了本地部署的、开源权重的大语言模型(LLMs)在Text-to-SQL任务上的性能。研究发现,较新的模型一代,如Qwen2.5-Coder和Llama-3.x,在同等规模下显著优于CodeLlama-Instruct等旧模型。诸如自我纠错等关键技术在不同模型家族中均显示出持续的优势,而模式链接(schema linking)未带来可衡量的改进,自洽性(self-consistency)因计算成本高而价值不高。 AI
影响 为本地部署大语言模型在SQL生成方面的实际性能提供了见解,指导了对数据隐私有约束的组织的选择。
排序理由 该集群包含一篇评估大语言模型在特定任务上性能的研究论文。
- BIRD
- CodeLlama-Instruct
- CodeLlama-Instruct (13B)
- CodeLlama-Instruct (34B)
- CodeLlama-Instruct (7B)
- Llama 3.3-70B
- Llama-3.3 (8B)
- Llama-3.x
- Qwen2.5-Coder
- Qwen2.5 Coder 14B
- qwen2.5-coder:32b
- Qwen2.5-Coder 7B
- Volodymyr Bezkorovainyi
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →