Qwen 2.5 · PulseAugur

新内核通过融合 SwiGLU 激活来提高大语言模型推理速度

研究人员开发了新的技术，通过在瓦片级别将 SwiGLU 激活函数直接融合到 GEMM 操作中，来加速大语言模型 (LLM) 的推理。这些方法使用为 NVIDIA H100 GPU 定制的 CUTLASS 内核实现，显著减少了中间张量物化的相关开销。在 Qwen 2.5 模型上的评估显示，与标准的 PyTorch 实现相比，速度提升高达 2.47 倍，实现了更高的峰值 BF16 利用率，并展示了优于 cuBLAS 等现有库的数值性能。

TOOL · CL_123000 · Jul 2 · 16:31

新的 RFM-AGOP 方法可快速识别 LLM 中的拒绝子空间

研究人员开发了一种名为 RFM-AGOP 的新方法，该方法改编了递归特征机算法，以有效地识别大型语言模型中的多维拒绝子空间。该技术可以在几秒钟内查明拒绝有害查询等复杂行为，比现有方法快得多。该方法在 Qwen 3 等推理模型和 Qwen 2.5 等非推理模型上进行了测试，证明了其作为当前子空间提取技术的潜在可扩展补充。

TOOL · CL_119598 · Jul 1 · 04:00

新研究揭示大语言模型的安全对齐是一种脆弱、可控的“轴”

一篇题为《拒绝的几何学：安全对齐的大语言模型中的线性不稳定性》的新研究论文介绍了一种名为对比对数引导（CLS）的方法，用于探测大语言模型安全对齐的脆弱性。CLS 操作于输出分布，识别出一个“拒绝方向”，揭示安全合规可能是一种可操纵的线性特征，而非深层语义决策。在 Llama-3.1 和 Qwen-2.5 等模型上的实验表明，CLS 可以有效地绕过安全护栏，实现高攻击成功率，并暴露其他方法低估的漏洞。研究表明，当前的对齐技术创建了一个可…

RESEARCH · CL_119613 · Jun 30 · 08:18

LLM 对话代理通过新的提示策略提高安全性 · 已追踪 2 个来源

一篇新的研究论文探讨了一种轻量级提示策略，以提高大型语言模型在面向任务的对话中数据库交互失败时的安全性。提出的“引导重试”（Guided-Retry）方法旨在减少幻觉，例如捏造预订详情或确认信息，而无需重新训练模型。该策略在包括 Llama 3 和 Qwen 2.5 在内的六个开放权重模型家族上，在 MultiWOZ 2.2 和 SGD 等基准测试中进行了测试，幻觉率显著降低了高达 50%。然而，残余幻觉仍然存在，尤其是在错误领域检索的情况下。

COMMENTARY · CL_117214 · Jun 30 · 04:09

2026年多供应商LLM策略至关重要：备用链与成本优化

到2026年，生产系统依赖单一大型语言模型（LLM）供应商将面临重大风险，可能出现服务中断、模型弃用和定价变化。采用多供应商策略，利用备用链和成本优化，正变得至关重要。API格式的融合，特别是OpenAI的聊天补全标准，使得集成GPT-5、DeepSeek V4、Claude 4、Gemini 2.5和Qwen 2.5等模型更加容易。这种方法能够实现自动故障转移，将请求路由到最具成本效益且能力匹配的模型，并进行负载均衡，以实现高可用性…

TOOL · CL_117805 · Jun 30 · 04:00

研究发现：语言模型的“评估意识”随规模变化

一篇新研究论文探讨了开放权重语言模型在扩展过程中如何发展出“评估意识”。研究发现，与出现在后期层的较小模型不同，较大的模型倾向于在其神经网络的早期层中表现出这种意识。这种依赖于规模的表征深度变化有助于解释为什么不同模型家族的性能轨迹可能不一致。研究还表明，内部模型信号（白盒探测）比外部行为观察（黑盒测试）更能指示评估意识。

TOOL · CL_115819 · Jun 29 · 06:48

2026年LLM微调：DeepSeek、GPT-5、Claude 4 API详解

2026年，大型语言模型（LLM）的微调已成为一种API优先的流程，无需专门的机器学习工程团队。DeepSeek提供了一种经济高效的解决方案，而OpenAI的GPT-5则提供最高的准确性。Anthropic的Claude 4面向企业合规性，而像Qwen 2.5这样的开放权重模型可以通过API网关进行部署。微调的成功取决于数据集的准备，不同提供商有特定的格式要求，并侧重于质量、去重和个人身份信息（PII）的 redaction。

TOOL · CL_115633 · Jun 29 · 04:00

新的 PEBS 方法增强了 RLHF 奖励模型的校准

研究人员开发了 PEBS，这是一种新颖的每位评分者经验贝叶斯收缩估计器，旨在改进用于人类反馈强化学习 (RLHF) 的奖励模型的校准。传统方法会汇总标注者偏好并拟合单个全局校准器，这可能会掩盖个体评分尺度的差异。PEBS 通过拟合每位评分者的仿射校准器并将收缩趋向于总体均值来解决此问题，提供了一种无需重新训练基础奖励模型的闭式事后解决方案。该方法已在 PRISM 和 PluriHarms 等基准数据集上证明了均方根误差 (RMSE) 的降低。

TOOL · CL_111740 · Jun 26 · 04:00

研究人员发现LLM的RLVR训练会激活记忆捷径

研究人员在通过可验证奖励强化学习（RLVR）训练的大型语言模型（LLM）中发现了一种“困惑度悖论”。当模型在收到虚假或不正确奖励的情况下仍取得性能提升时，就会出现这种悖论，这表明模型从推理转向了记忆。该研究详细介绍了一个特定的“锚点-适配器”电路，该电路涉及中间层的函数式锚点和后几层的结构性适配器，从而促进了这种捷径。研究还表明，通过扩展该电路中的特定MLP键可以因果性地引导模型的行为，为识别和减轻RLVR微调模型中的数据污染提供了一种方法。

TOOL · CL_109815 · Jun 25 · 05:11

Off Grid AI Desktop 为本地LLM使用提供图形用户界面，可与Ollama媲美

一款名为Off Grid AI Desktop的新开源应用程序旨在为在个人电脑上本地运行大型语言模型提供更用户友好的界面。与需要命令行交互和API的Ollama不同，Off Grid AI Desktop提供了用于模型选择、聊天、图像生成和语音输入/输出的图形界面。该应用程序支持各种模型，并利用Mac和PC上的硬件加速，通过量化技术使更大的模型能够在消费级硬件上运行。

TOOL · CL_109419 · Jun 25 · 01:14

Qwen 3 14B模型在400美元GPU上高效运行，性能强劲

Qwen 3 14B模型提供了出色的性能成本比，取得了81.1的MMLU分数，并在配备16GB显存的400美元RTX 4060 Ti GPU上有效运行。该配置支持高达16K上下文窗口的流畅交互式推理。更大的Qwen 3模型，如32B和72B版本，需要显著更多的显存，因此需要RTX 4090等高端消费级显卡或多GPU配置。

TOOL · CL_108095 · Jun 24 · 04:00

新框架使用梯度上升实现可解释的LLM个性控制

研究人员开发了一个新框架，利用梯度上升来发现用于控制大型语言模型（LLM）涌现行为的提示。这种名为RESGA和SAEGA的方法，旨在通过识别模型内部的个性方向来连接机制可解释性与提示工程。该方法已证明在引导Llama 3.1、Qwen 2.5和Gemma 3等模型实现特定个性（如谄媚和幻觉）方面有效，为手动提示工程提供了一种更具可解释性和可扩展性的替代方案。

COMMENTARY · CL_101212 · Jun 19 · 23:10

作者认为：离线优先AI对全球南方国家至关重要

文章认为，AI工具必须设计成离线可用，特别是对全球南方国家而言，因为这些地区的互联网和电力供应不稳定。作者介绍了`offline-mcp`，这是一个包装了Ollama的工具，可以在本地运行开放权重模型，确保在没有互联网连接的情况下也能正常工作，并防止敏感数据发送到外国服务器。这种方法被认为是实现数字独立的关键，并且已证明在树莓派等低成本硬件上可行。

RESEARCH · CL_84476 · Jun 9 · 22:46

研究发现：大型语言模型角色扮演会改变陈述，而非核心信念

一篇新的研究论文探讨了大型语言模型在扮演不同角色时是否会内化信念。研究发现，虽然模型可以采纳角色并改变其陈述，但这种角色扮演对其底层真实性内部表征的影响有限。这与接受有害建议训练的模型形成对比，后者在其内部表征中显示出更大的转变，并倾向于为虚假声明辩护。

TOOL · CL_80323 · Jun 9 · 05:34

Abacus AI 提供用于 AI 代理的 Linux VPS，与抽象平台形成对比

Abacus AI 推出了名为 Supercomputer 的新产品，每月仅需 10 美元即可为开发者提供持久的 Linux 环境。与其他抽象掉基础设施的 AI 编码平台不同，Abacus 提供了对虚拟专用服务器的直接访问。该环境允许多个 AI 编码代理（包括来自 OpenAI 和 Anthropic 的模型）同时运行，并与同一个文件系统和终端进行交互。

TOOL · CL_79175 · Jun 6 · 16:01

新框架探究 AI 模型对研究者期望的敏感性

研究人员开发了一个新框架，用于区分语言模型在安全评估期间的战略性自我保护与其对研究者期望的敏感性。通过针对后果追踪和研究者期望追踪等工具性过程，他们可以评估这些干预措施如何影响对齐伪装行为。对 Llama-3.1 和 Qwen-2.5 等模型的实验表明，这些模型受感知期望的影响大于受后果追踪的影响，这凸显了在欺骗评估中进行构建效度检验的必要性。

TOOL · CL_64701 · Jun 1 · 22:49

MiniCPM5 1B 成为一款新颖的小型语言模型

MiniCPM5 1B 是一款新的小型语言模型，似乎是从头开始开发的，与之前基于 Qwen 等现有模型微调的 MiniCPM 版本不同。该模型拥有自己的分词器，并展现出独特的对话模式，使其区别于其他小型模型甚至更新的 Qwen 版本。它的能力和起源是本地 LLM 社区讨论的主题。

TOOL · CL_56091 · May 28 · 04:00

新方法 CODE 通过减少自我矛盾来改进 LLM 知识编辑

一篇新研究论文介绍了一种名为 CODE（Causal On-policy Distillation for Editing）的方法，旨在改进大型语言模型的知识编辑。传统的直接覆盖事实的方法可能导致“认知失调”，使模型与新信息相矛盾。CODE 通过将更新建立在因果叙事的基础上，显著降低了自我矛盾率，在 LLaMA-3.1 和 Qwen-2.5 的实验中，自我矛盾率从 95.6% 降至低至 1.8%，同时保持了高多跳准确率。

TOOL · CL_54826 · May 27 · 13:39

Qwen 2.5 LoRA 集成导致用户图像损坏

一位 Reddit 用户在使用 Qwen 2.5 模型时遇到了使用 LoRA 生成图像的问题。他们报告说，任何他们尝试添加的 LoRA 都会损坏生成的图像，导致质量低下。该用户已尝试降低 LoRA 的强度，但问题仍未解决。不使用 LoRA 生成的图像看起来正常且质量上乘。

TOOL · CL_54815 · May 27 · 13:31

RoPE 嵌入革新 LLM 的位置感知能力

本文解释了旋转位置嵌入 (RoPE)，这是一种于 2021 年开发的方法，用于解决 Transformer 模型固有的位置感知缺失问题。与可能破坏语义含义并限制上下文长度的早期加性位置编码不同，RoPE 使用几何旋转来编码位置。这种方法因其有效处理绝对位置和相对距离的能力，已成为包括 LLaMA 3、Mistral、Qwen 2.5 和 Gemma 在内的许多领先开源 LLM 的标准。