PulseAugur
实时 09:18:23
English(EN) HyDRA: Hybrid Dynamic Routing Architecture for Heterogeneous LLM Pools

HyDRA框架动态路由大语言模型查询,降低成本并提高效率

研究人员开发了HyDRA,一个用于将查询动态路由到异构大语言模型池的新型框架。与之前进行强弱二元决策或要求为目录更改进行再训练的旧方法不同,HyDRA为每个查询预测细粒度的能力需求,并使用短缺匹配将其与模型配置文件进行匹配。这种方法将预测器与模型目录解耦,允许在不进行再训练的情况下轻松添加或删除模型。在实际应用中,HyDRA实现了86毫秒的中位数CPU推理延迟,并在各种基准测试和语种家族中,以最小的质量权衡实现了显著的成本节约。 AI

影响 这种路由架构可以通过有效地将查询匹配到最具成本效益的模型,从而显著降低大语言模型部署的运营成本。

排序理由 该集群包含一篇详细介绍大语言模型路由新架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Aashna Garg, Siddharth Singha Roy, Jinu Jang, Federico Brancasi, Shengyu Fu ·

    HyDRA: Hybrid Dynamic Routing Architecture for Heterogeneous LLM Pools

    arXiv:2605.17106v2 Announce Type: replace Abstract: Production LLM deployments increasingly maintain heterogeneous model pools spanning order-of-magnitude cost differences. Existing routers make binary strong-vs-weak decisions and couple learned parameters to specific model ident…