PulseAugur
实时 12:40:02
English(EN) Self-Driving Datasets: From 20 Million Papers to Nuanced Biomedical Knowledge at Scale

AI系统Starling自主创建大规模、细致的生物医学数据集,数据来自PubMed

研究人员开发了一种新颖的基于LLM的管道,可自主地将庞大的PubMed语料库转化为结构化的生物医学数据集。该系统名为Starling,可以处理数百万篇研究论文以提取细致的信息,创建比现有精选存储库更大、更准确的数据集。该系统在六项不同的生物医学任务中展示了其能力,生成了数百万条记录,错误率远低于传统数据库,并包含支持性段落,捕捉了表格格式中经常丢失的实验背景。 AI

影响 该系统可以通过大规模提供更准确、更全面的生物医学数据来加速治疗设计。

排序理由 该集群描述了一篇研究论文,详细介绍了一个新的基于LLM的生物医学数据提取和数据集创建系统。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Haydn Jones, Yimeng Zeng, Alden Rose, Li S. Yifei, Yining Huang, Kaiwen Wu, Jiaming Liang, Maggie Ziyu Huan, Yoseph Barash, Cesar de la Fuente-Nunez, Osbert Bastani, Zachary Ives, Mark Yatskar, Jacob R. Gardner ·

    Self-Driving Datasets: From 20 Million Papers to Nuanced Biomedical Knowledge at Scale

    arXiv:2605.07022v3 Announce Type: replace Abstract: Manually curated biomedical repositories -- spanning bioactivity, genomics, and chemistry -- are expensive to maintain, lag behind primary literature, and discard experimental context, obscuring nuances needed to assess data cor…