English(EN) What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

研究人员探讨上下文学习与多语言模型指令微调的对比

作者 PulseAugur 编辑部 · [4 个来源] · 2026-04-28 02:09

研究人员正在探索语言模型传统指令微调的替代方案，特别是针对小型和多语言模型。一篇论文研究了上下文学习（ICL）在非英语语言和不同模型规模下指令遵循方面的有效性，发现ICL在此类场景下的性能有所下降。另一项研究引入了M-DaQ，一个用于创建高质量、多样化多语言指令微调数据集的框架，该框架能提升模型在18种语言上的性能。第三篇论文提出了一种名为加权上下文影响（wICI）的数据选择方法，用于识别有效的指令微调数据，在数据受限的情况下优于现有基线。 AI

影响新的多语言指令微调和数据选择方法可以提高LLM在不同语言上的性能和可访问性。

排序理由该集群包含多篇arXiv论文，详细介绍了语言模型指令微调和数据选择方面的新研究。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 4 个来源。我们如何撰写摘要 →

报道来源 [4]

arXiv cs.CL TIER_1 English(EN) · David Ponce, Thierry Etchegoyhen · 2026-05-01 04:00

In-context Learning vs. Instruction Tuning: The Case of Small and Multilingual Language Models

arXiv:2503.01611v3 Announce Type: replace Abstract: Instruction following is a critical ability for Large Language Models to perform downstream tasks. The standard approach to instruction tuning has relied on a specific phase of supervised fine-tuning over curated instruction dat…
arXiv cs.CL TIER_1 English(EN) · Chunguang Zhao, Yilun Liu, Pufan Zeng, Yuanchang Luo, Shimin Tao, Minggui He, Weibin Meng, Song Xu, Chen Liu, Hongxia Ma, Li Zhang, Boxing Chen, Daimeng Wei · 2026-05-01 04:00

M-DaQ: Retrieving Samples with Multilingual Diversity and Quality for Instruction Fine-Tuning Datasets

arXiv:2509.15549v2 Announce Type: replace Abstract: Multilingual instruction fine-tuning (IFT) empowers large language models to generalize across diverse linguistic and cultural contexts; however, high-quality, systematically curated multilingual IFT datasets remain scarce. To a…
arXiv cs.CL TIER_1 English(EN) · Guangzeng Han, Xiaolei Huang · 2026-04-29 04:00

What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

arXiv:2604.25132v1 Announce Type: new Abstract: Instruction-tuning datasets often contain substantial redundancy and low-quality samples, necessitating effective data selection methods. We propose an instruction data selection framework based on weighted in-context influence (wIC…
arXiv cs.CL TIER_1 English(EN) · Xiaolei Huang · 2026-04-28 02:09

What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

Instruction-tuning datasets often contain substantial redundancy and low-quality samples, necessitating effective data selection methods. We propose an instruction data selection framework based on weighted in-context influence (wICI), which measures how effectively each candidat…

报道来源 [4]

In-context Learning vs. Instruction Tuning: The Case of Small and Multilingual Language Models

M-DaQ: Retrieving Samples with Multilingual Diversity and Quality for Instruction Fine-Tuning Datasets

What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

相关实体

相关话题