English(EN) How Small Can You Go? LoRA Fine-Tuning 270M-8B Models for Merchant Information Extraction in Financial Transactions

更小的语言模型在金融交易数据提取方面展现出潜力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员探索了微调更小的语言模型以用于金融交易商户信息提取，旨在降低与更大模型相关的成本。他们的研究评估了四个模型家族（包括 Gemma、Qwen、Aya 和 LLaMA）的 24 个变体，重点关注准确性、吞吐量和训练成本。研究结果表明，像 Qwen 3.5 4B 甚至 0.8B 版本这样的模型，以更少的参数和更好的延迟实现了具有竞争力的性能，使其成为生产部署的可行替代方案。 AI

影响证明了更小、更高效的模型可以在特定任务上实现与更大模型相当的性能，从而可能降低运营成本并提高可访问性。

排序理由学术论文，详细介绍了关于模型微调和性能的实证研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Donghao Huang, Tomas Drietomsky, Benjamin Barrett, Zhaoxia Wang · 2026-06-09 04:00

能做到多小？LoRA 微调 270M-8B 模型用于金融交易中的商户信息提取

arXiv:2606.08051v1 Announce Type: new Abstract: Financial transaction processing requires extracting structured merchant information from noisy, abbreviated bank transaction strings at scale. Our current production system, a LoRA-fine-tuned LLaMA 3.1-8B, achieves 96.95% F1 on thi…

报道来源 [1]

能做到多小？LoRA 微调 270M-8B 模型用于金融交易中的商户信息提取

相关实体

相关话题