English(EN) YouZhi: Towards High-Concurrency Financial LLMs via Adaptive GQA-to-MLA Transition

YouZhi-LLM通过自适应KV缓存压缩提升金融AI并发能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-04 08:44

研究人员开发了YouZhi-LLM，这是一种专为高并发金融应用设计的新型大型语言模型。该模型利用一种新颖的自适应GQA到MLA转换框架来最大化KV缓存压缩，显著降低了内存开销和基础设施成本。YouZhi-LLM与华为Ascend生态系统和专用训练流水线集成，与基础模型相比，在金融基准测试得分上有所提高，部署并发性也大幅提升。 AI

影响降低了金融LLM的KV缓存开销，实现了更高的部署并发性和更低的基础设施成本。

排序理由这是一篇描述LLM新模型架构和训练流水线的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · PSBC LLM Team, Huawei LLM Team, Ruihan Long, Junjie Wu, Tianan Zhang, Duo Zhang, Yaozong Wu, Jinbin Fu, Chang Liu, Zhentao Tang, Wenshuang Yang, Xin Wang, Zhihao Song, Ning Huang, Wenjing Xu, Shuai Zong, Shupei Sun, Sen Wang, Jing Hu, Bin Wang, Xinyu Wa… · 2026-06-05 04:00

YouZhi：通过自适应GQA到MLA的转换，实现高并发金融大模型

arXiv:2606.05868v1 Announce Type: new Abstract: Large language models (LLMs) drive significant financial innovations, yet their high-concurrency deployment is severely bottlenecked by KV cache memory overhead, which inflates infrastructure costs and throttles scalability. To addr…
arXiv cs.CL TIER_1 English(EN) · Xinzhuang Niu · 2026-06-04 08:44

YouZhi：通过自适应GQA到MLA的转换，实现高并发金融大模型

Large language models (LLMs) drive significant financial innovations, yet their high-concurrency deployment is severely bottlenecked by KV cache memory overhead, which inflates infrastructure costs and throttles scalability. To address this, we propose YouZhi-LLM, a highly effici…

报道来源 [2]

YouZhi：通过自适应GQA到MLA的转换，实现高并发金融大模型

YouZhi：通过自适应GQA到MLA的转换，实现高并发金融大模型

相关实体

相关话题