实体 HealthBench

HealthBench

PulseAugur coverage of HealthBench — every cluster mentioning HealthBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

12

90 天内 12

发布 · 30天

0

90 天内 0

论文 · 30天

10

90 天内 10

层级分布 · 90 天

主题

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/1 页 · 共 12 条

TOOL · CL_117472 · Jun 30 · 04:00

专业临床AI在真实世界测试中表现优于前沿模型

一项新研究评估了包括Claude Opus 4.8、Gemini 3.1 Pro和GPT-5.5在内的领先AI模型与名为OpenEvidence的专业临床工具的性能。评估使用了来自各专科医生提出的620个真实世界临床查询。结果显示，在准确性、临床实用性和来源质量等所有衡量标准上，专业的OpenEvidence工具的表现均优于通用AI模型。研究还强调了AI裁判与专家人类裁判之间的差异，但指出在表现最佳的模型上存在普遍共识。
RESEARCH · CL_117101 · Jun 28 · 15:51

新的基准和设备端AI系统旨在改善孕产健康信息获取 · 跟踪4个来源

研究人员推出了两个新的基准，mamabench和mamaretrieval，旨在评估专门针对孕产、新生儿和生殖健康领域的检索增强生成（RAG）系统。这些基准通过关注助产士的独特查询并为孕产健康指南提供块级相关性基准，填补了现有医学问答数据集的空白。此外，一篇配套论文详细介绍了MAM-AI，一个为桑给巴尔的助产士设计的设备端RAG系统，该系统可完全离线运行，证明即使是小型设备端模型也能实现具有竞争力的检索性能。
RESEARCH · CL_104746 · Jun 21 · 10:12

用于医疗问答的LLM：探索新的推理提示和知识图谱接地

研究人员正在探索改进大型语言模型（LLM）在开放式医疗问答方面的能力。一种方法是使用一种名为CLINICR的思维链（CoT）推理提示，旨在模仿临床推理，并在MEDQA-OPEN等修改后的数据集上表现优于现有的5-shot CoT提示。另一项研究调查了知识图谱（KG）接地的有效性，发现它仅在所需信息超出模型训练数据范围时，特别是对于新颖或私有知识，才能显著提高LLM的准确性，而对已知事实的益处很小。
SIGNIFICANT · CL_98845 · Jun 18 · 13:46

百川-M4通过多轮诊疗和长期记忆增强AI医疗诊断能力

百川智能发布了其Baichuan-M4模型，该模型专门针对医疗应用进行了增强。新模型在多轮医疗咨询、循证推理和长期患者记忆方面表现出显著改进，在某些临床基准测试中优于GPT-5.5等模型。M4集成到消费产品“百小医”中，旨在提供超越诊所的持续健康管理服务，围绕人工智能家庭医生构建新的生态系统，以协助患者及其家人做出明智的健康决策。
RESEARCH · CL_95812 · Jun 16 · 17:34

新的RubricsTree框架增强了个人健康AI代理的评估

研究人员开发了RubricsTree，一个旨在应对个人健康AI代理评估挑战的新框架。该系统利用了超过100个经过临床验证的等级分类的层级分类法，并通过分析4000个用户查询和专家医师的意见进行了优化。RubricsTree采用上下文感知路由器来激活相关的等级分类，以实现可扩展且与专家一致的评估，并在Gemini、GPT和Qwen等模型的HealthBench等基准测试中显示出显著的性能提升。
TOOL · CL_93421 · Jun 16 · 04:00

新的JADE框架通过专家驱动的动态评估增强了AI代理的评估能力

研究人员推出了一种新颖的两层评估框架JADE，旨在应对在开放式专业任务上评估AI代理所面临的挑战。JADE的第一层将专家知识编码为评估技能，以实现稳定的标准；第二层则进行动态的、基于声明的评估，并带有证据依赖门控。在BizBench上的实验表明，JADE能够提高评估的稳定性，并识别出标准LLM评估器遗漏的关键代理失败，同时还显示出与专家评分标准的一致性，并能有效地迁移到HealthBench等其他领域。
TOOL · CL_72632 · Jun 5 · 04:00

LLM通过新的GRPO奖励框架改进心脏医学问答

研究人员开发了一种新方法，以提高大型语言模型（LLM）在回答心脏相关医学问题方面的准确性。他们的方法利用了具有新颖方差感知奖励框架的组相对策略优化（GRPO）。该框架为稀疏、多标准反馈提供了更丰富的优化信号，从而实现了更稳定的强化学习。该方法在心脏医学问答基准测试中显著提高了准确率和F1分数，优于基础模型，并与一个规模大得多的模型保持竞争力。
RESEARCH · CL_45577 · May 23 · 06:53

百川智能转向医疗AI，发布M4模型及Agent

百川智能创始人王小川已将公司重心从通用AI模型转向专业医疗AI。这一战略转变包括开发M4医疗大模型以及一款名为“百小医”的AI医生Agent产品。公司旨在通过创建能够协助诊断和患者管理的AI医生来解决医疗专业人员短缺的问题，早期部署显示与专家意见高度一致。
TOOL · CL_32658 · May 14 · 16:17

COTCAgent 改进了 LLM 对患者健康记录的分析

研究人员开发了 COTCAgent，这是一个旨在改进大型语言模型分析纵向电子健康记录方式的新框架。该代理通过结合统计推理和处理非均匀时间序列数据来解决当前模型的局限性，以更好地捕捉长程时间依赖性。COTCAgent 使用时间统计适配器进行数据处理，并使用思维链补全层进行疾病风险评估，在自建数据集和 HealthBench 数据集上取得了高精度。
TOOL · CL_30793 · May 13 · 06:15

LLM学会主动检索外部信息以更好地适应任务

研究人员开发了一种新方法来适应大型语言模型（LLM），使其能够主动从维基百科和网络浏览器等外部来源检索信息。这种被称为“主动信息检索”的方法被整合到一个基于搜索的训练程序中，该程序可以维护和修剪候选上下文。该方法在翻译、健康场景和推理任务等各种领域都显示出显著的性能提升，同时被证明具有数据效率高且可泛化到不同模型的特点。
RESEARCH · CL_21935 · May 8 · 00:00

苹果的RVPO框架通过惩罚奖励方差来增强LLM对齐

研究人员推出了一种名为奖励-方差策略优化（RVPO）的新型框架，旨在提高大型语言模型与多个目标的一致性。与现有平均奖励的方法不同，RVPO惩罚不同奖励信号之间的方差，从而促进一致性并防止关键约束被忽略。该方法在涉及医学和科学推理以及工具调用的任务上进行了评估，在HealthBench等基准测试中表现出改进的性能，并在GPQA-Diamond上保持了准确性。
RESEARCH · CL_22198 · May 7 · 10:10

TheraAgent AI 通过迭代优化改进医疗治疗规划

研究人员开发了 TheraAgent，这是一个旨在提高大型语言模型生成的治疗计划的精确性和安全性。与传统的单次生成不同，TheraAgent 采用迭代的生成-判断-优化过程，模仿人类专家优化计划的方式。这种方法通过一个名为 TheraJudge 的专业评估模块得到增强，旨在生成更全面、更安全的治疗方案。