研究人员开发了ClinicalEncoder26AM,一个多语言可诊断的ColBERT模型,专门用于临床和生物医学文本。该模型将token级别的语义与受BioLORD-2023启发并使用合成和标注数据增强的临床潜在空间ClinicalMap25对齐。ClinicalEncoder26AM的后训练过程利用了BGE-M3,并整合了包括合成笔记和MedMentions等标注数据集在内的各种临床资源。在MultiClinNER共享任务上进行评估,该模型在多语言实体召回率方面展示了最先进的性能,并在多种实体类型和语言的Character-weighted F1分数中排名Top 5。 AI
影响 该模型的数据效率和在临床文本分析中的性能有望加速生物医学研究和医疗保健领域的信息提取。
排序理由 该集群包含一篇详细介绍新模型及其在共享任务上评估的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →