English(EN) Partial Identification under Missing Data Using Weak Shadow Variables from Pretrained Models

新方法使用LLM来约束统计数据中的缺失值

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了一个新的统计框架，用于估计数据缺失时的人口数量，特别是当意见更强的用户更有可能做出回应时。该方法使用包括大型语言模型（LLMs）在内的预训练模型的预测作为“弱影子变量”，以收紧识别界限。该方法在实验中有效地将识别区间缩小了高达83%，为处理非随机缺失数据提供了更稳健的方法。 AI

影响为分析具有非随机缺失用户反馈的数据集提供了一种更稳健的统计方法，有可能改进平台评估和社科研究。

排序理由该集群包含一篇详细介绍新颖统计方法的新学术论文。[lever_c_demoted from research: ic=1 ai=0.7]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Hongyu Chen, David Simchi-Levi, Ruoxuan Xiong · 2026-06-09 04:00

使用预训练模型的弱影子变量进行缺失数据下的部分识别

arXiv:2602.16061v2 Announce Type: replace Abstract: Estimating population quantities such as mean outcomes from user feedback is fundamental to platform evaluation and social science, yet feedback is often missing not at random (MNAR): users with stronger opinions are more likely…