English(EN) Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

LLM 生成的数据提升了非英语临床编码搜索

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员探讨了通用型与特定嵌入式模型在非英语临床编码语义搜索中的有效性。他们发现，使用 LLM 生成的合成数据对西班牙语生物医学编码器进行微调，显著提高了西班牙语、加泰罗尼亚语、法语和葡萄牙语等语言的性能。这种方法结合了双编码器和交叉编码器重排序器，在某些指标上甚至超越了现有的基于英语的模型，而无需进行英语生物医学预训练。 AI

影响展示了一种使用合成数据提高非英语语言模型在专业领域性能的方法。

排序理由学术论文，详细介绍了关于临床编码搜索嵌入式模型的实证研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · David Rey-Blanco, Roberto Cruz · 2026-06-01 04:00

通用型还是特定型嵌入，哪种更好？一项关于非英语语言临床编码搜索的实证研究

arXiv:2605.30529v1 Announce Type: cross Abstract: Sentence-embedding models for semantic search are overwhelmingly developed and evaluated on English corpora. When applied to clinical retrieval in other languages -- particularly retrieval of ICD-10-CM / CIE-10 codes -- recall deg…

报道来源 [1]

通用型还是特定型嵌入，哪种更好？一项关于非英语语言临床编码搜索的实证研究

相关实体

相关话题