研究人员开发了HyDRA,一个用于将查询动态路由到异构大语言模型池的新型框架。与之前进行强弱二元决策或要求为目录更改进行再训练的旧方法不同,HyDRA为每个查询预测细粒度的能力需求,并使用短缺匹配将其与模型配置文件进行匹配。这种方法将预测器与模型目录解耦,允许在不进行再训练的情况下轻松添加或删除模型。在实际应用中,HyDRA实现了86毫秒的中位数CPU推理延迟,并在各种基准测试和语种家族中,以最小的质量权衡实现了显著的成本节约。 AI
影响 这种路由架构可以通过有效地将查询匹配到最具成本效益的模型,从而显著降低大语言模型部署的运营成本。
排序理由 该集群包含一篇详细介绍大语言模型路由新架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Claude Haiku 4.5
- Claude Sonnet 4.6
- GitHub Copilot
- GPT-5.3 Codex
- GPT-5.4
- GPT-5.4-mini
- HyDRA
- LLM
- ModernBERT
- SWE-Bench Verified
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →