实体
AGIEval
AGIEval
PulseAugur coverage of AGIEval — every cluster mentioning AGIEval across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
主密钥假说:通过线性子空间对齐解锁跨模型能力迁移
研究人员提出了主密钥假说(Master Key Hypothesis),认为模型能力存在于可迁移的潜在子空间中,这些子空间可以在不同模型规模之间对齐。他们开发了一个名为 UNLOCK 的框架,实现了像链式思考(Chain-of-Thought)推理等能力的无训练、无标签迁移。实验表明,在不同 Qwen 模型之间迁移推理能力时,准确率显著提高,甚至超过了更大规模的、经过后续训练的模型。
-
AI chatbots excel at emergency psychiatric triage but over-assign urgency
A new study evaluated 15 advanced AI chatbots on their ability to perform emergency psychiatric triage using 112 clinical vignettes. The chatbots demonstrated high accuracy in identifying true emergencies, with an under…