实体
Qwen3-4B-Instruct
Qwen3-4B-Instruct
PulseAugur coverage of Qwen3-4B-Instruct — every cluster mentioning Qwen3-4B-Instruct across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新技术循环 Transformer 层以提升模型性能
研究人员开发了一种名为无训练循环 Transformer 的新颖技术,该技术可在无需任何额外训练或架构修改的情况下提升现有冻结语言模型的性能。该方法在推理时应用一个轻量级包装器来循环连续的层块,将其视为常微分方程近似的精炼,而不是直接更新。该方法已在不同模型系列中展示了性能提升,包括 Qwen3 和 Moonlight 等模型在 MMLU-Pro、CommonsenseQA 和 OpenBookQA 等基准测试上取得了显著的提升。
-
Bolek model grounds AI reasoning in molecular structure for drug discovery
Researchers have developed Bolek, a compact multimodal language model designed for molecular reasoning. This model integrates molecular structure embeddings into an instruction-tuned text decoder, enabling it to ground …