实体
Cohen's Dream
Cohen's Dream
PulseAugur coverage of Cohen's Dream — every cluster mentioning Cohen's Dream across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
主题
关系
最近 · 第 1/1 页 · 共 3 条
-
LLM提示评估需要统计显著性和效应量
一篇最近在dev.to上发表的文章提出了一种更严谨的方法来评估大型语言模型(LLM)提示,超越了简单的平均分数比较。作者认为,LLM评估中常用的少量数据集不足以得出可靠的平均分数,统计显著性至关重要。该文章提倡使用Mann-Whitney U检验而非t检验,因为它是非参数的,并且还强调了Cohen's d等效应量指标的重要性,以确保在统计显著性之外的实际意义。
-
原子事实核查可提高临床医生对LLM肿瘤学推荐的信任度
一项涉及356名临床医生的随机对照试验发现,“原子事实核查”显著提高了临床医生对大型语言模型在肿瘤学决策支持中推荐的信任度。该方法将AI生成的治疗建议分解为可验证的声明,并链接到源指南。使用原子事实核查,表示信任的临床医生比例从26.9%上升到66.5%,其效果远大于传统的透明度方法。
-
DPN-LE方法以最小的神经元干预精确编辑LLM个性
研究人员开发了DPN-LE,一种通过靶向特定神经元来编辑大型语言模型“个性”的新颖方法。现有技术通常通过修改过多神经元(其中许多是多功能的)来降低整体模型性能。DPN-LE通过对比MLP激活来识别特定于个性的神经元,并使用双重标准过滤方法来分离相关的神经元子集。该方法仅干预一小部分神经元,在保持通用能力的同时实现精确的个性控制。