实体 Qwen2.5 3B Instruct

Qwen2.5 3B Instruct

PulseAugur coverage of Qwen2.5 3B Instruct — every cluster mentioning Qwen2.5 3B Instruct across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 12

发布 · 30天

90 天内 0

论文 · 30天

90 天内 11

层级分布 · 90 天

主题

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/1 页 · 共 12 条

TOOL · CL_128716 · Jul 7 · 04:00

新的TRACE方法检测LLM辅导中的答案驱动推理

一项新的研究论文介绍了截断推理AUC评估（TRACE）作为一种检测基于LLM的教育辅导中答案驱动推理的方法。研究发现，当像Qwen2.5-3B-Instruct这样的LLM能够访问答案密钥时，它们的解释在生成的文本早期显示正确答案的可能性会显著增加。这表明LLM可能正在生成针对已知答案量身定制的解释，而不是从问题本身推导出答案。
TOOL · CL_104123 · Jun 22 · 17:44

合成数据管道提升波斯语LLM性能

该项目详细介绍了为提高波斯语大型语言模型（LLM）的指令遵循能力而专门设计的合成数据管道的创建过程。该管道通过使用GPT 4.1 mini和nano等模型生成结构化指令对，解决了高质量波斯语数据集稀缺的问题。它包含了多阶段过滤，包括语义去重和基于LLM的质量评分，以确保数据的多样性和相关性。然后，使用包含约4,000个指令对（涵盖51个领域）的精选数据集，通过QLoRA对Qwen2.5 3B Instruct模型进行微调，并展示了稳定的收敛性。
RESEARCH · CL_106564 · Jun 21 · 08:48

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

多篇研究论文探讨了优化大语言模型（LLM）服务中的键值（KV）缓存的新技术，以解决内存和性能瓶颈。这些方法包括量化、剪枝、合并和频率引导压缩，旨在减少内存使用并提高长上下文工作负载的推理速度。研究评估了这些技术在各种基准测试和模型上的表现，强调了压缩率、任务质量和系统性能之间的权衡，并建议根据工作负载选择压缩策略。
TOOL · CL_98004 · Jun 18 · 04:00

新的 PROPEL 框架可高效训练 AI 任务生成器

研究人员开发了 PROPEL，这是一个新颖的框架，旨在通过改善合适任务的供应来克服强化学习代理训练中的瓶颈。该方法训练一个轻量级的激活探针来预测任务的可解性，显著降低了生成器优化相关的计算成本。PROPEL 已在数学、编码和软件工程等多个领域证明了其有效性，通过将任务生成导向目标解决率，并增加了可学习前沿的任务比例。
RESEARCH · CL_93385 · Jun 15 · 12:14

新的EGLR方法将语言模型推理扩展到随机采样之外

研究人员推出了一种新颖的解码程序——熵门控潜在递归（EGLR），旨在通过扩展传统token级随机性之外的采样空间来增强语言模型的推理能力。EGLR通过在高度不确定的token上递归地重新应用模型的顶层解码器层来引入一个确定性轴，为温度采样创造了一个互补的维度。这种结合方法在指令调整模型和数学推理基准上进行了测试，显著提高了性能，证明了层跨度轴捕获了独特的问题解决能力。
TOOL · CL_79925 · Jun 9 · 04:00

SCOUT框架提升LLM在非语言任务上的表现

研究人员开发了一个名为SCOUT的新框架，以提高大型语言模型（LLM）在非语言任务上的性能。SCOUT将探索与利用分离，使用轻量级的“侦察兵”从环境中高效收集数据。然后，这些数据用于微调LLM，使其在以前需要大量且昂贵试错的任务上表现更好。在实验中，SCOUT使Qwen2.5-3B-Instruct模型在消耗更少计算资源的情况下，超越了Gemini-2.5-Pro等专有模型。
TOOL · CL_58676 · May 29 · 04:00

研究：强化学习比监督式微调更能保留大型语言模型电路，减少灾难性遗忘

一篇新的研究论文探讨了大型语言模型中灾难性遗忘的现象，特别是比较了强化学习（RL）和监督式微调（SFT）。研究发现，虽然SFT能更快地适应新任务，但它会严重破坏模型的内部电路，并导致先前能力的更大程度遗忘。相比之下，RL能保留更多原始模型的电路，尽管任务适应速度较慢，这表明电路的保留是RL在灾难性遗忘方面具有鲁棒性的关键。
RESEARCH · CL_50835 · May 26 · 04:00

LLM提炼用于代码生成；基准测试评估执行潜力

研究人员正在探索将大语言模型（LLM）的代码生成能力提炼到更小、更易于访问的模型中的方法。一项研究专注于为AI代理生成“游戏代码世界模型”（GameCWMs），使用精选数据集和新颖的训练流程来改进Qwen2.5-3B-Instruct等较小模型。另一篇论文回顾了基于LLM的代码生成任务的趋势、挑战和未来方向，强调了现实世界泛化、鲁棒性和评估有效性方面的问题。第三项研究工作引入了SURGE，这是一个旨在评估LLM作为通用替代代码执行器在…
RESEARCH · CL_41761 · May 20 · 09:21

DASH 框架将 LLM 混合注意力搜索时间大幅缩短

研究人员开发了 DASH，一个用于高效设计大型语言模型混合注意力架构的新框架。这种可微分方法显著加快了架构搜索过程，将计算成本从数十亿 token 降低到仅数百万。DASH 在某些基准测试中优于现有方法，甚至超越了 Jet-Nemotron 等模型，所有这些都在单 GPU 上数分钟内完成。
TOOL · CL_49304 · May 17 · 10:14

NewsLens 框架使用多智能体 AI 映射新闻偏见

研究人员开发了 NewsLens，一个新颖的五智能体框架，旨在超越简单的分类来导航和揭示新闻偏见的细微方面。该系统利用一个由事实核查员和框架分析师组成的智能体协作流程，将文章分解为可解释的框架图。该框架旨在揭示意识形态上的遗漏和修辞操纵，为理解媒体偏见提供一种更结构化的方法。使用 Qwen2.5-3B-Instruct 和 Mistral 7B 模型对地缘政治事件进行的评估表明，中心派媒体表现出更高的视角分歧，而保守派框架媒体则表现出…
RESEARCH · CL_14127 · May 1 · 05:39

RadLite微调小型LLM，用于CPU可部署的放射学AI

研究人员开发了RadLite，一种用于放射学任务的30-40亿参数小型语言模型（SLM）微调方法。该方法利用Qwen2.5-3B-Instruct和Qwen3-4B等模型的LoRA微调，显著提高了九种不同放射学应用的性能。所得模型足够小，可以量化并在消费级CPU上部署，为资源受限的临床环境提供了实用的解决方案。
RESEARCH · CL_16305 · Jul 2 · 00:00

AI 代理通过新研究和模型获得先进的长期记忆能力

2026年6月发布的多篇研究论文探讨了 AI 代理长期记忆系统的进展。Qwen 发布了开源稀疏专家混合模型 Qwen3.6-35B-A3B，强调了其代理编码能力。几篇论文介绍了新的记忆架构和框架，包括用于上下文恢复的 RaMem、用于预测世界模型的 Nous、用于原子事实的 AtomMem，以及用于记忆驱动的自我演进的边际优势累积（MAA）。这些工作旨在改进 AI 代理在扩展交互和不断变化的环境中存储、检索和利用信息的方式，解决上下文…

新的TRACE方法检测LLM辅导中的答案驱动推理

合成数据管道提升波斯语LLM性能

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

新的 PROPEL 框架可高效训练 AI 任务生成器

新的EGLR方法将语言模型推理扩展到随机采样之外

SCOUT框架提升LLM在非语言任务上的表现

研究：强化学习比监督式微调更能保留大型语言模型电路，减少灾难性遗忘

LLM提炼用于代码生成；基准测试评估执行潜力

DASH 框架将 LLM 混合注意力搜索时间大幅缩短

NewsLens 框架使用多智能体 AI 映射新闻偏见

RadLite微调小型LLM，用于CPU可部署的放射学AI

AI 代理通过新研究和模型获得先进的长期记忆能力