English(EN) ClinicalEncoder26AM: A Multlilingual Diagnosable ColBERT Model; Evidences from the MultiClinNER Shared Task

新的多语言ColBERT模型在临床文本分析中表现出色

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-27 14:20

研究人员开发了ClinicalEncoder26AM，一个多语言可诊断的ColBERT模型，专门用于临床和生物医学文本。该模型将token级别的语义与受BioLORD-2023启发并使用合成和标注数据增强的临床潜在空间ClinicalMap25对齐。ClinicalEncoder26AM的后训练过程利用了BGE-M3，并整合了包括合成笔记和MedMentions等标注数据集在内的各种临床资源。在MultiClinNER共享任务上进行评估，该模型在多语言实体召回率方面展示了最先进的性能，并在多种实体类型和语言的Character-weighted F1分数中排名Top 5。 AI

影响该模型的数据效率和在临床文本分析中的性能有望加速生物医学研究和医疗保健领域的信息提取。

排序理由该集群包含一篇详细介绍新模型及其在共享任务上评估的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Fran\c{c}ois Remy · 2026-05-28 04:00

ClinicalEncoder26AM：一个多语言可诊断的 ColBERT 模型；来自 MultiClinNER 共享任务的证据

arXiv:2605.28521v1 Announce Type: new Abstract: ClinicalEncoder26AM is a multilingual Diagnosable ColBERT for clinical and biomedical texts, which aligns at multiple levels its token-level semantic with ClinicalMap25, a clinical latent space inspired by BioLORD-2023 and enriched …
arXiv cs.CL TIER_1 English(EN) · François Remy · 2026-05-27 14:20

ClinicalEncoder26AM：一个多语言可诊断的ColBERT模型；来自MultiClinNER共享任务的证据

ClinicalEncoder26AM is a multilingual Diagnosable ColBERT for clinical and biomedical texts, which aligns at multiple levels its token-level semantic with ClinicalMap25, a clinical latent space inspired by BioLORD-2023 and enriched with synthetic and annotated supervision. The po…

报道来源 [2]

ClinicalEncoder26AM：一个多语言可诊断的 ColBERT 模型；来自 MultiClinNER 共享任务的证据

ClinicalEncoder26AM：一个多语言可诊断的ColBERT模型；来自MultiClinNER共享任务的证据

相关实体

相关话题