PulseAugur
实时 17:37:41
English(EN) For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs

新方法为LLM和VLM提供高效数据估值

两篇新研究论文提出了用于大型语言模型(LLM)数据估值的新颖方法。第一篇论文“For-Value”引入了一个高效的仅前向传播框架,该框架使用单次前向传播来估算数据价值,避免了计算成本高昂的反向传播。第二篇论文“Utility-Aware Data Pricing”提出了一个动态的、基于效用的定价模型,该模型在token级别量化数据的贡献,并结合了经验性训练增益和加密可验证性,以实现透明的数据市场。 AI

影响 新的数据估值技术可以通过根据其效用准确为数据定价,从而实现更高效的LLM训练和更公平的数据市场。

排序理由 arXiv上发表的两篇学术论文介绍了LLM数据估值的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新方法为LLM和VLM提供高效数据估值

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Wenlong Deng, Qi Zeng, Jiaming Zhang, Minghui Chen, Zixin Ding, Christos Thrampoulidis, Boying Gong, Xiaoxiao Li ·

    For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs

    arXiv:2508.10180v3 Announce Type: replace Abstract: Data valuation is essential for enhancing the transparency and accountability of large language models (LLMs) and vision-language models (VLMs). However, existing methods typically rely on gradient computations, making them comp…

  2. arXiv cs.LG TIER_1 English(EN) · Minghui Xu, Qi Luo, Kun Li ·

    Utility-Aware Data Pricing: Token-Level Quality and Empirical Training Gain for LLMs

    arXiv:2604.22893v1 Announce Type: new Abstract: Traditional data valuation methods based on `"row-count $\times$ quality coefficient'' paradigms fail to capture the nuanced, nonlinear contributions that data makes to Large Language Model (LLM) capabilities. This paper presents a …