English(EN) Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA

大型语言模型剂量建议在新时间不确定性基准上进行评估

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员开发了 DOSEBENCH，这是一个旨在评估大型语言模型（LLM）在非处方药剂量问题中处理时间不确定性能力的新基准。该基准包含 81 个涉及对乙酰氨基酚和布洛芬的场景，侧重于跟踪剂量时间和遵守产品标签限制等关键推理。初步评估显示，大型语言模型在滚动窗口计算和模糊案例方面经常遇到困难，常常给出听起来自信但错误的剂量建议。 AI

影响凸显了大型语言模型在安全关键型时间推理方面的局限性，表明需要改进医学问答模型。

排序理由该集群包含一篇介绍用于评估大型语言模型能力的基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Maroof Kousar, Yibo Hu · 2026-06-04 04:00

Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA

arXiv:2606.04262v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly used for everyday health questions, including whether a user can safely take another dose of an over-the-counter (OTC) medication. Yet this common safety-relevant setting remains under…

报道来源 [1]

Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA

相关实体

相关话题