English(EN) SCARV: Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets

SCARV框架增强了冗余NLP数据集中的稳定样本排序

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了SCARV，一个旨在提高包含冗余的自然语言处理（NLP）数据集中样本排序稳定性的新框架。由于训练的随机性，现有方法在处理相似数据点时通常会产生不稳定的排序。SCARV通过结合鲁棒的多种子聚合和一个结构感知组件来解决这个问题，该组件对冗余数据簇进行分组和分析，从而在子集选择和识别可疑示例等任务中做出更可复现的决策。 AI

影响通过稳定冗余数据集中的样本排序，增强了NLP数据整理和分析的可复现性。

排序理由这是一篇详细介绍NLP数据集分析新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Xu Zheng, Feiyu Wu, Linhong Wu, Zhuocheng Wang, Hui Li · 2026-05-05 04:00

SCARV：冗余NLP数据集中的稳定样本排序的结构约束聚合

arXiv:2605.00944v1 Announce Type: cross Abstract: Sample-level rankings are increasingly used in data-centric NLP for analysis, filtering, debugging, and curation, yet existing pipelines typically score training examples pointwise and rank them as if they were independent. This a…

报道来源 [1]

SCARV：冗余NLP数据集中的稳定样本排序的结构约束聚合

相关实体

相关话题