English(EN) SHIELD: A Diverse Clinical Note Dataset and Distilled Small Language Models for Enterprise-Scale De-identification

SHIELD：一个多样化的临床笔记数据集和用于企业级去标识化的蒸馏小型语言模型

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-05 02:43

研究人员推出了SHIELD，这是一个包含1,394条临床笔记的新数据集，其中包含超过10,000个已识别的受保护健康信息（PHI）跨度。该数据集旨在通过提供更多样化的现代临床叙述来解决旧基准的局限性。该项目还开发了蒸馏小型语言模型（SLMs），能够在标准硬件上高效地对临床文本进行去标识化，并实现了高精度和高召回率。 AI

影响提供了一个更多样化的数据集和更高效的模型，用于临床文本的去标识化，可能促进电子健康记录（EHR）数据的更广泛的二次利用。

排序理由该集群包含一篇详细介绍新的去标识化数据集和蒸馏模型的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Jose D. Posada, David Love, Somalee Datta, Priya Desai · 2026-05-06 04:00

SHIELD：一个多样化的临床笔记数据集和用于企业级去标识化的蒸馏小型语言模型

arXiv:2605.03301v1 Announce Type: new Abstract: De-identification of clinical text remains essential for secondary use of electronic health records (EHRs), yet public benchmarks such as i2b2 2006/2014 are over a decade old and lack the semantic and demographic diversity of modern…
arXiv cs.CL TIER_1 English(EN) · Priya Desai · 2026-05-05 02:43

SHIELD：一个多样化的临床笔记数据集和用于企业级去标识化的蒸馏小型语言模型

De-identification of clinical text remains essential for secondary use of electronic health records (EHRs), yet public benchmarks such as i2b2 2006/2014 are over a decade old and lack the semantic and demographic diversity of modern narratives. While Large Language Models (LLMs) …

报道来源 [2]

SHIELD：一个多样化的临床笔记数据集和用于企业级去标识化的蒸馏小型语言模型

SHIELD：一个多样化的临床笔记数据集和用于企业级去标识化的蒸馏小型语言模型

相关实体

相关话题