Small Language Models
PulseAugur coverage of Small Language Models — every cluster mentioning Small Language Models across labs, papers, and developer communities, ranked by signal.
3 天有情绪数据
-
小型语言模型显示出有限的自我纠正能力
一项新的研究论文调查了小型语言模型(SLMs)的自我纠正能力,发现即使在提供了正确答案和提示的情况下,它们在改进推理方面仍然存在困难。该研究开发了一个三步流程来测试 SLMs 在算术和逻辑推理方面的能力,结果显示,在纠正性反馈下准确率仅提高了 4.4%。有趣的是,研究还表明,更长的提示有时会阻碍性能,这表明对于 SLMs 来说,增加的审议并不总是能带来更好的结果。
-
研究:SLM 输出常反映提示伪影,而非心理学
一项新的研究论文揭示,当小型语言模型(SLM)用于心理测量评估时,其输出常常反映的是提示伪影,而非真实的心理特征。该研究分析了 13 个开源模型,发现提示中的系统性变化经常掩盖语义信号,导致模型优先考虑提示的合规性,而非模拟的心理理解。虽然这限制了 SLM 在心理测量学中的当前效用,但该研究引入了一个框架来识别和减轻这些伪影,以供未来模型开发使用。
-
RAG 研究聚焦成本、意图和分块以改进 AI 检索
研究人员正在开发新的方法来优化检索增强生成 (RAG) 系统的效率和准确性。一种方法,成本感知 RAG (CA-RAG),动态地将查询路由到不同的检索深度和生成配置以降低成本和延迟,同时保持答案质量。另一种方法,InSemRAG,使用意图感知检索器和语义保留分块,利用小型语言模型来提高复杂任务的性能。此外,还在探索在嵌入文档之前预加上下文块标题等技术,以通过保留作者的预期结构来提高检索精度。
-
小型语言模型在多语言引用检测中优于大型语言模型
研究人员开发了一个新的多语言语料库MCN,以解决维基百科上低资源语言的引用需求检测(CND)问题。他们的研究表明,经过编码器式目标微调的小型语言模型(SLM)在此任务上的表现优于大型语言模型(LLM)。值得注意的是,仅在英语数据上训练的SLM表现出强大的跨语言性能,这表明在资源受限的环境中,紧凑型、专用模型比LLM更适合CND。
-
HARNESS-LM 训练紧凑型模型以实现更快的赞助搜索检索
研究人员开发了 HARNESS-LM (HLM),一种新颖的三阶段训练框架,旨在将大型语言模型的能力转移到紧凑、高效的模型中,用于赞助搜索检索。该方法包括训练一个高性能的“教师”模型,将其知识蒸馏到一个更小的“学生”编码器中,然后优化学生模型以获得最佳检索性能。HLM 成功恢复了教师模型超过 98% 的精度,同时显著降低了延迟并提高了吞吐量,通过在 Bing Ads 上的 A/B 测试证明了其实际效果。
-
新的基准数据集 DeEscalWild 训练小型语言模型用于警务降级
研究人员开发了 DeEscalWild,这是一个新的基准数据集和训练方法,用于小型语言模型 (SLMs),旨在提高执法部门的降级技能。该数据集源自真实的警民互动,包含超过 285,000 个对话回合。实验表明,在 DeEscalWild 上微调的 SLMs 的表现明显优于其基础模型,甚至优于 Gemini 2.5 Flash 等通用模型,为基于边缘的训练提供了可扩展且计算效率高的解决方案。