English(EN) Mining Useful General Data for Low-Resource Domain Adaptation

新方法挖掘通用数据以增强低资源领域大语言模型的自适应能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 04:00

研究人员开发了一种名为NTK-Selector的新方法，以改进大语言模型在低资源领域的自适应能力。该技术挖掘有用的通用领域数据，特别是思维链示例，来补充有限的领域特定信息。通过近似神经切线核（NTK），NTK-Selector能够识别有益的通用领域样本，从而在各种专业领域带来显著的性能提升。 AI

影响通过利用通用数据增强大语言模型在专业领域的效用，可能减少对大量领域特定数据集的需求。

排序理由该集群包含一篇学术论文，详细介绍了一种用于大语言模型领域自适应的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Pingjie Wang, Hongcheng Liu, Yusheng Liao, Ziqing Fan, Yaxin Du, Shuo Tang, Yanfeng Wang, Yu Wang · 2026-06-08 04:00

为低资源领域自适应挖掘通用有用数据

arXiv:2511.07380v2 Announce Type: replace Abstract: Adapting large language models (LLMs) to low-resource domains remains challenging due to the scarcity of domain-specific data. While in-domain data is limited, there exists a vast amount of general-domain data that shares simila…