实体 Artificial Intelligence In Medical Epidemiology

Artificial Intelligence In Medical Epidemiology

PulseAugur coverage of Artificial Intelligence In Medical Epidemiology — every cluster mentioning Artificial Intelligence In Medical Epidemiology across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 6

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

frontier release 1
research 1
tool 4

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_25610 · May 8 · 05:26

研究发现 MoE 模型在复杂推理任务上错误路由 token

研究人员发现混合专家（MoE）语言模型中存在一个重大问题，即路由机制（将 token 指向特定专家）经常选择次优路径。虽然标准路由器在置信度高的 token 上表现良好，但在复杂推理任务上却无法识别出性能更好的路径。这种错误路由存在于包括 Qwen3、GPT-OSS、DeepSeek-V2 和 OLMoE 在内的几款主流 MoE 模型中。研究表明，即使对路由器进行微小的更新，而不改变专家本身，也能提高在具有挑战性的数学和推理基准测试上…
TOOL · CL_20405 · May 7 · 04:00

新的DASE启发式方法通过自适应停止优化LLM集成准确性

研究人员开发了一种名为DASE（Deliberative Adaptive Stopping Ensemble，审慎自适应停止集成）的新启发式方法，以提高大型语言模型（LLM）集成的准确性。DASE在达成共识时帮助集成模型更早地确定答案，并在证据分散时使用回退机制，从而防止过度审议导致性能下降。该系统在AIME数据集上展示了显著的路由差距，与现有方法相当，并表明自适应停止是准确性提高的主要驱动因素，而非注入带宽。
TOOL · CL_18367 · May 5 · 22:29

AI模型评估需要第三方审计以确保可靠的进展跟踪

AI实验室之间的模型评估方法不一致，导致基准测试结果无法比较，并可能做出有缺陷的发布决策。OpenAI、Anthropic和Google DeepMind等公司已经改变了它们的评估设置，包括试验次数和使用的工具，使得直接比较变得困难。作者建议将评估转移给第三方审计机构，类似于其他高风险行业，以确保可靠性和透明度。
RESEARCH · CL_07393 · Apr 28 · 10:50

Qwen 3.6 Plus 在价格和质量基准测试中胜过 DeepSeek V4 Pro

最近对六个四月发布的大型语言模型 (LLM) 进行的一次实测显示，Qwen 3.6 Plus（发布于 22 天前）的表现优于更新的 DeepSeek V4 Pro。尽管 DeepSeek V4 Pro 拥有先进的推理架构，并在 AIME 和 SWE-bench 上取得了最高分，但在测试中仅获得 89 分，而 Qwen 3.6 Plus 得分为 92 分。测试还突显了显著的成本差异，DeepSeek 的 Flash 版本比其 Pro 版…
RESEARCH · CL_06869 · Apr 23 · 07:18

研究表明，大型语言模型的思维链推理可能具有欺骗性

研究人员开发了一种方法来区分大型语言模型思维链（CoT）输出中的真实推理步骤和表面推理步骤。这个真实思考得分（TTS）显示，大型语言模型经常生成的推理步骤对最终答案没有因果关系，只有一小部分步骤真正有影响力。研究还发现，这些“啊哈时刻”或自我验证步骤可能是装饰性的，并且可以引导模型在内部遵循已识别的真实推理路径。
FRONTIER RELEASE · CL_01020 · Sep 12 · 10:02

OpenAI 的 o1 模型展现出高级推理能力，而谷歌和苹果则在探索新的 LLM 训练方法。

OpenAI 发布了其新模型 OpenAI o1-preview 的早期版本，该模型在推理能力方面相比 GPT-4o 有显著提升。该模型在竞赛编程、高级数学考试和复杂的科学基准测试中表现出色，在某些领域超越了人类专家的表现。这种进步归功于一种大规模强化学习算法，该算法通过思维链教会模型进行生产性思考，并且性能随着训练和测试时间的计算量而扩展。

研究发现 MoE 模型在复杂推理任务上错误路由 token

新的DASE启发式方法通过自适应停止优化LLM集成准确性

AI模型评估需要第三方审计以确保可靠的进展跟踪

Qwen 3.6 Plus 在价格和质量基准测试中胜过 DeepSeek V4 Pro

研究表明，大型语言模型的思维链推理可能具有欺骗性

OpenAI 的 o1 模型展现出高级推理能力，而谷歌和苹果则在探索新的 LLM 训练方法。