Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing
PulseAugur coverage of Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing — every cluster mentioning Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing across labs, papers, and developer communities, ranked by signal.
3 天有情绪数据
-
AI模型高精度检测临床试验剂量错误 · 已追踪2个来源
研究人员开发了一种使用领域特定Transformer嵌入和分类模型来检测临床试验中剂量错误的方法。该研究评估了几种语言模型,包括ClinicalBERT、PubMedBERT、BioBERT和MedCPT,用于编码文本试验数据。BioBERT表现出卓越的性能,ROC-AUC达到0.794,比ClinicalBERT提高了3.95%。组合多个嵌入并未增强结果,这表明领域对齐比表示堆叠更关键。预测剂量错误最有效的模型是梯度提升、支持向量分…
-
新的BERT模型增强了医疗器械召回分诊能力
研究人员开发了RecallRisk-BERT,一个旨在改进医疗器械召回分诊和评估的新型多任务框架。该模型整合了召回叙述中的文本数据以及产品代码和法规编号等结构化特征,以同时预测召回的严重程度和根本原因类别。该框架使用PubMedBERT进行文本表示,并将其与其他嵌入相结合,与单任务模型相比表现出优越的性能,并与观察到的根本原因严重程度模式显示出很强的一致性。
-
新方法改进大型行为模型中的因果发现
研究人员开发了一种方法,通过解决嵌入邻近性问题来提高大型行为模型(LBM)中因果发现的准确性。标准的生物医学语言模型会错误地关联不相关的概念,导致 LBM 推断出错误的因果联系。提出的修复方法采用对比学习方法,利用知识图谱挖掘困难的负样本,显著改善了相关概念和不相关概念之间的分离。该方法还包括使用 OpenVINO 在 Intel 硬件上进行更快推理的优化。
-
新的PubMedCausal语料库增强了生物医学因果关系抽取
研究人员推出了PubMedCausal,一个用于生物医学文本因果关系抽取的新语料库。该数据集源自PubMed摘要,提供了3,945个因果关系行和6,491个因果对的跨度级标注,能够对模型能力进行详细评估。基准测试表明,虽然像PubMedBERT这样的生物医学编码器在因果检测方面表现强劲,但像DeepSeek-R1-32B这样的生成模型在少样本提示下进行跨度级抽取时也能取得有竞争力的结果。
-
新数据集从Reddit提取药物洞察
研究人员开发了ReDose,一个包含6,435个关于物质使用的Reddit帖子的数据集,以帮助医生更好地了解临床过量病例之外的真实世界药物使用情况。该数据集由一位毒理学家和医学生标注,包含DRUG、DOSE和EFFECT等实体。在对各种模型进行基准测试时,BiomedBERT在DRUG实体提取方面表现强劲,而Llama-3 70B在整体提取方面优于GPT-4。该研究强调了从用户生成内容中准确提取EFFECT实体的持续挑战。