研究人员开发了MMIR-TCM,一个旨在通过解决视觉舌象特征与文本推理之间的语义鸿沟来改进中医临床决策支持的新框架。该框架集成了多模态大语言模型(MLLM)以及内存增强分割和检索增强生成(RAG)。它采用三阶段架构,包括用于舌象提取的内存-SAM模块,用于诊断生成的微调Qwen3-VL模型,以及用于证据支持的基于Qwen3的RAG组件。MMIR-TCM使用了一个新的大规模多模态数据集MedTCM进行开发和验证,并使用了一个名为TDEU的领域特定指标进行评估,其性能优于GPT-4o和Gemini 2.5 Flash等模型。 AI
影响 这项研究可能为中医带来更准确、可复现的诊断工具,从而改善患者的治疗效果。
排序理由 该集群描述了一篇关于特定领域新框架和数据集的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Gemini 2.5 Flash
- GPT-4o
- MedTCM
- MMIR-TCM
- multimodal large language model
- Qwen3
- Qwen3-VL
- TDEU
- Traditional Chinese Medicine
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →