实体 Qwen3-4B-Base

Qwen3-4B-Base

PulseAugur coverage of Qwen3-4B-Base — every cluster mentioning Qwen3-4B-Base across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_95771 · Jun 8 · 00:00

新的大型语言模型框架TRIAGE通过辩证推理改进医疗风险预测

研究人员开发了一个名为TRIAGE的新框架，利用大型语言模型进行风险预测，以增强临床预警系统。TRIAGE训练大型语言模型生成辩证推理，权衡相互竞争的临床结果，以产生更校准和可解释的连续风险评分。这种方法解决了大型语言模型中常见的风险两极分化问题，即分级风险被压缩为过于自信的二元预测。在医疗时间序列基准测试上的评估显示，TRIAGE将平均AUPRC提高了3.3%，并将校准误差降低了81%，人类评估认为其推理质量比基线事后解释提高了20%。
TOOL · CL_27010 · May 11 · 17:32

Lorem Ipsum 文本可提升大型语言模型数学能力，新研究表明

研究人员发现，在强化学习过程中，在提示词前添加随机的 Lorem Ipsum 文本可以显著提高大型语言模型在数学推理任务上的表现。这种称为 LoPE（Lorem Perturbation for Exploration）的技术有助于克服“零优势问题”，即模型在所有初始答案都错误的任务中无法学习。通过用熟悉但无意义的文本轻微扰乱模型的内部状态，LoPE 鼓励探索不同的推理路径，从而在数学基准测试中取得显著改进。
TOOL · CL_27584 · May 10 · 16:24

新的K-12知识图谱基准测试大型语言模型课程认知

研究人员开发了K12-KGraph，一个新颖的知识图谱，旨在专门评估和训练K-12教育领域的大型语言模型（LLMs）。该图谱源自官方教材，捕捉了课程结构，包括先决条件和概念关系，超越了简单的事实回忆。为了支持这一点，他们创建了K12-Bench（一个包含23,640个问题的基准测试集）和K12-Train（一个微调数据集）。实验表明，当前的大型语言模型在课程认知方面存在困难，而K12-Train数据集在教育基准测试上显著提高了性能，且样本效率高。
TOOL · CL_16250 · May 5 · 04:00

主密钥假说：通过线性子空间对齐解锁跨模型能力迁移

研究人员提出了主密钥假说（Master Key Hypothesis），认为模型能力存在于可迁移的潜在子空间中，这些子空间可以在不同模型规模之间对齐。他们开发了一个名为 UNLOCK 的框架，实现了像链式思考（Chain-of-Thought）推理等能力的无训练、无标签迁移。实验表明，在不同 Qwen 模型之间迁移推理能力时，准确率显著提高，甚至超过了更大规模的、经过后续训练的模型。

新的大型语言模型框架TRIAGE通过辩证推理改进医疗风险预测

Lorem Ipsum 文本可提升大型语言模型数学能力，新研究表明

新的K-12知识图谱基准测试大型语言模型课程认知

主密钥假说：通过线性子空间对齐解锁跨模型能力迁移