实体 DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-7B

PulseAugur coverage of DeepSeek-R1-Distill-Qwen-7B — every cluster mentioning DeepSeek-R1-Distill-Qwen-7B across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_141546 · Jul 14 · 04:00

多模态调优重组LLM身份编码

研究人员调查了多模态指令调优如何影响Transformer语言模型中指定身份提示的几何编码。他们分析了包括Gemma 4 E4B和Qwen2.5-7B-Instruct在内的四种模型，在不同的训练后模式下。研究发现，多模态指令调优导致身份编码方式发生转变，从基础模型中的基于方向的表示转移到调优模型中的基于幅度的表示。这种重组是多模态指令调优特有的，在通过RL蒸馏或标准监督微调训练的模型中未观察到。
RESEARCH · CL_106564 · Jun 21 · 08:48

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

多篇研究论文探讨了优化大语言模型（LLM）服务中的键值（KV）缓存的新技术，以解决内存和性能瓶颈。这些方法包括量化、剪枝、合并和频率引导压缩，旨在减少内存使用并提高长上下文工作负载的推理速度。研究评估了这些技术在各种基准测试和模型上的表现，强调了压缩率、任务质量和系统性能之间的权衡，并建议根据工作负载选择压缩策略。
RESEARCH · CL_50951 · May 26 · 04:00

新研究推进机器人和LLM的策略优化

研究人员引入了几种新方法来增强强化学习中的策略优化，特别是针对涉及机器人和大型语言模型（LLM）的复杂任务。MODIP旨在通过使用世界模型来指导适应，从而高效地微调机器人学习中的扩散策略，与标准的模仿学习相比，提高了稳定性和性能。N-GRPO和T2-GRPO分别侧重于通过采用新颖的嵌入层混合和多视域奖励策略来改进LLM在数学推理和护理代理等任务中的探索和奖励分配。此外，CATPO和GenPO++通过改进基于树的方法和生成策略来提高训练…

多模态调优重组LLM身份编码

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

新研究推进机器人和LLM的策略优化