Llama 3.1 8B-Instruct

回收 LoRA 收益有限，提示正则化效应

一篇新研究论文探讨了回收预训练 LoRA 模块用于语言模型的有效性，特别是在从 Hugging Face Hub 进行适配时。该研究使用了近 1000 个在 Llama 3.1 8B-Instruct 模型上训练的用户贡献 LoRA，发现与在相同数据上训练新 LoRA 相比，自适应合并方法带来的益处有限。令人惊讶的是，选择合并哪些 LoRA 对结果影响甚微，甚至随机初始化的参数也能产生相似的性能，这表明可能存在正则化效应，而非积极的跨…

TOOL · CL_130896 · Jul 7 · 22:01

L40S 上的 vLLM 优化：批处理和 FP8 带来显著提升

对 NVIDIA L40S GPU 上 vLLM 优化的详细分析，使用 Llama 3.1 8B Instruct 模型，揭示了连续批处理是最大的性能提升因素，吞吐量增加了 73 倍，并带来了显著的能源效率提升。FP8 量化也提供了显著的提升，在质量损失极小的情况下将吞吐量提高了约 50%，而投机解码则根据工作负载的不同提供了进一步但不太显著的改进。研究强调了高并发性对于在此硬件上最大化效率的重要性。

TOOL · CL_128753 · Jul 7 · 04:00

AI风险规避可跨越巨大利益进行泛化，但尚不可靠

研究人员开发了一个新的基准测试RiskAverseOOD，用于测试语言模型如何将风险规避从低风险情景泛化到高风险情景。使用Qwen3、Gemma-3和Llama-3等模型进行各种方法的实验表明，在低风险下学到的风险规避可以在巨大的风险差异中部分泛化。虽然当前模型表现出改进的风险规避行为，但它们尚未达到足够一致的可靠性，不足以作为防止潜在AI错位的安全措施。

TOOL · CL_117690 · Jun 30 · 04:00

研究发现 LLM 代理易受多轮骚扰攻击

一项新的研究论文介绍了在线骚扰代理基准测试（Online Harassment Agentic Benchmark），旨在测试大型语言模型（LLM）代理对多轮在线骚扰的易感性。该研究利用了两种主要的 LLM，LLaMA-3.1-8B-Instruct 和 Gemini-2.0-flash，通过记忆、规划和微调三种越狱方法进行测试。结果表明，越狱微调显著提高了攻击成功率并降低了拒绝率，其中侮辱（Insult）和谩骂（Flaming）是最…

RESEARCH · CL_117366 · Jun 29 · 15:18

AI安全探测器未能预测到有害行为的发生

一篇新的研究论文探讨了使用内部模型状态来预测和防止AI代理产生有害行为的局限性。该研究在Qwen2.5-Coder-32B-Instruct、Llama-3.1-8B-Instruct和Gemma-3-27B-IT模型上测试了三种方法。研究人员发现，虽然内部探测器可以识别提示语上下文或当前轨迹，但它们未能可靠地预测未来有害文本或工具行为的发生。研究结果表明，当前的内部状态监测技术不足以进行稳健的预行动安全检查。

RESEARCH · CL_117090 · Jun 27 · 21:08

新研究探讨RAG在分块、冲突解决和鲁棒性方面的进展 · 追踪7个来源

多篇研究论文探讨了大型语言模型（LLM）的检索增强生成（RAG）系统的进展。一项研究评估了不同的分块策略，发现在学术文本上，基于聚类的语义分块并未优于更简单的方法。另一篇论文介绍了双置信度对比解码（DCCD），用于处理检索文档中的冲突信息，在多文档问答方面表现有所提高。此外，研究提出了PRA-RAG，用于可证明的鲁棒聚合以抵抗检索投毒，以及AB-RAG，用于自适应预算以提高答案的可靠性。最后，一项研究调查了RAG中引用归属的机制解释，…

COMMENTARY · CL_112973 · Jun 26 · 22:34

2026年最便宜的LLM API供初创公司使用：开放权重模型提供大幅节省

对于2026年的初创公司而言，通过OpenRouter等平台使用开放权重LLM API可以带来显著的成本优势。Meta的Llama 3.1 8B Instruct和Microsoft的Phi-4等模型提供了可观的节省，对于低流量操作而言，每次调用的成本微乎其微。虽然免费套餐适用于原型设计和评估，但生产环境需要迁移到付费模型以确保可靠性和性能。

TOOL · CL_111645 · Jun 26 · 04:00

聊天模型个性设定被发现会影响拒绝行为

研究人员发现，经过指令微调的聊天模型的个性设定对其拒绝行为起着至关重要的作用。通过分析Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct，他们发现顺从的个性设定会成为拒绝行为的“守门员”。当顺从的个性设定指令被放大时，拒绝率显著下降，特别是Llama-3.1-8B-Instruct，从97%降至2%。虽然拒绝行为可以在后续层中部分恢复，但最终受其初始计算下游的个性设定所控制，这表明孤立地处理拒绝行为会忽…

TOOL · CL_111281 · Jun 25 · 21:28

Eval-awareness direction detects framing, not sandbagging in Llama-3.1

研究人员调查了模型对其正在被评估的意识是否直接导致其表现不佳，这种现象被称为“沙袋效应”（sandbagging）。研究使用了一个欺骗检测工具包，并在 Llama-3.1-8B-Instruct 上进行测试，发现“评估意识”（eval-awareness）方向主要检测的是评估框架本身，而不是因果性地驱动沙袋效应行为。虽然该方向在识别评估情境方面被证明是有效的，但它并未预测或导致沙袋效应的个体实例，这表明这种意识并非故意压低能力行为的直接原因。

RESEARCH · CL_111576 · Jun 25 · 14:29

AI安全模型在微调后易受规避攻击

一项新的研究论文揭示，对大型语言模型（LLMs）进行安全分类的微调可能会无意中产生新的漏洞。虽然这些模型在标准评估中可能表现良好，但它们可能会容易受到规避攻击，这些攻击会保持模型的行为但改变输入。该研究强调了微调如何专门化继承的模型结构，从而导致脆弱的指示器规则，这些规则在保持对保留数据的准确性的同时，也扩大了攻击面。

RESEARCH · CL_106564 · Jun 21 · 08:48

新的 KV 缓存压缩技术提升大语言模型推理性能 · 跟踪 9 个来源

多篇研究论文探讨了优化大语言模型（LLM）服务中的键值（KV）缓存的新技术，以解决内存和性能瓶颈。这些方法包括量化、剪枝、合并和频率引导压缩，旨在减少内存使用并提高长上下文工作负载的推理速度。研究评估了这些技术在各种基准测试和模型上的表现，强调了压缩率、任务质量和系统性能之间的权衡，并建议根据工作负载选择压缩策略。

RESEARCH · CL_99653 · Jun 18 · 03:20

顺序DPO对语言模型偏好产生不同影响

研究人员调查了顺序直接偏好优化（DPO）对语言模型的影响，发现它不会均匀地损害先前学到的偏好。该研究使用 Llama-3.1-8B-Instruct 和 LoRA 适配器，分析了四种不同的偏好设置。结果表明，偏好变化可能从部分损害到稳定性、重新分配，甚至正向迁移，具体取决于目标之间的关系、信号强度和训练顺序。进一步分析表明，聚合指标可能会掩盖配对级别上的异构变化，高置信度配对有时会改善，有时会恶化。

COMMENTARY · CL_97588 · Jun 18 · 00:49

AI 模型定价发生重大变化；Z.ai 降低成本，新模型涌现

AI 定价正经历显著变化，其中 Z.ai 显著降低了其 GLM 5.2 的提示和完成价格，为高用量用户提供了大幅节省。MoonshotAI 和 Qwen 等其他提供商也调整了定价，部分价格有所小幅上涨或下跌。Poolside 和 IBM 的新模型正在进入市场，同时 Meta 和 Mistral 提供了经济高效的选项，扩大了可用 AI 服务的范围。

TOOL · CL_96668 · Jun 17 · 11:57

AI模型定价调整：NVIDIA、MoonshotAI、DeepSeek降价；Z.ai推出长上下文模型

多家AI模型提供商宣布了定价调整和新模型发布。NVIDIA的Nemotron 3 Ultra完成了价格下调，有利于长文本生成工作负载。MoonshotAI的Kimi K2.7 Code和DeepSeek的V4 Flash模型也降低了提示和完成成本，面向对输入令牌费用敏感的开发者以及寻求低延迟推理的用户。此外，Z.ai推出了GLM 5.2，一个具有1,048,576个令牌上下文窗口的模型，但生成成本中等到偏高。

TOOL · CL_93136 · Jun 16 · 04:00

研究发现 LLaMA 3.1-8B-Instruct 的道德推理受提示框架影响

一项新的研究论文介绍了“帧条件道德计算”，以解释像 LLaMA 3.1-8B-Instruct 这样的大型语言模型如何处理道德提示。该研究使用了一个名为 Transluce 的机制可解释性平台来审计模型的内部计算，揭示了特定的提示特征，而不是固有的道德推理，极大地影响了模型的输出。这表明，虽然实现了行为对齐，但需要更深层次的“机制对齐”来确保真正的道德推理能力。

SIGNIFICANT · CL_92035 · Jun 15 · 13:27

LLM 定价变动：Kimi K2.7 涨价，Claude 3.5 Haiku 下架，新增 Gemini 模型 · 追踪 8 个来源

Token Ledger 报告了多家供应商的几项 LLM 定价调整以及模型增减情况。值得注意的是，MoonshotAI 的 Kimi K2.7 Code 的 completions 价格有所上涨，而其 Kimi Latest 和 K2.6 版本的 prompt 价格略有下降。Z.ai 调整了其 GLM 5.2 模型的定价，提供了优惠，并推出了具有高上下文能力的 GLM 5V Turbo。多款模型已从可用列表中移除，包括 Anthrop…

RESEARCH · CL_91384 · Jun 15 · 04:00

新研究探索极端LLM压缩技术

两篇新研究论文提出了压缩大型语言模型（LLM）的新颖方法，以减小其内存占用并提高效率。第一篇论文《LLM Compression by Block Removal with Constrained Binary Optimization》将LLM压缩构建为一个二元优化问题，在Llama-3.3-70B-Instruct的MMLU基准测试上取得了显著的提升。第二篇论文《UltraSketchLLM》引入了一种使用数据草图的低于1比特的压…

RESEARCH · CL_91212 · Jun 12 · 17:37

新AI方法可精确编辑知识，同时保留无关数据

研究人员开发了一种名为“路由专用双适配器”（Route-Specialized Dual Adapters）的新型知识编辑系统，旨在精确更新AI模型中的特定事实，同时保留无关信息。该系统采用相关性路由器来确定何时应用编辑内存，以及一个单独的适配器来抑制对非目标提示的编辑。在Llama-3.1-8B-Instruct和Qwen3-8B模型上使用“cf.”、“zsre”和“mquake”等基准进行测试时，该方法表现出优越的性能，通过有效分…

RESEARCH · CL_84465 · Jun 10 · 06:39

新框架揭示大语言模型内存不对称性

研究人员开发了一个新的诊断框架来分析大语言模型中的用户端内存，揭示个性化能力并非单一指标，而是涉及不同的维度：行为一致性、事实存在性和事实缺失性。他们的研究结果表明，不同的内存基底在不同维度上表现优异，参数化内存（gamma-LoRA）偏向风格，检索式方法（RAG）在事实缺失性方面表现出色。该研究还发现，在经过大量RLHF微调的模型中，参数化用户内存存在“对齐税”，并提出基底选择是一个问题分类任务而非校准任务。

TOOL · CL_82513 · Jun 10 · 04:00

研究发现：大型语言模型向人工智能代理泄露的个人数据比向人类多

一篇新的研究论文提出了“对话者效应”，该效应观察到大型语言模型（LLMs）在与人工智能代理交互时比与人类交互时泄露更多的个人数据。这种现象归因于接收者的技术性质，这似乎会停用安全对齐的注意力头。使用 Llama-3.1-8B-Instruct 进行的实验表明，将接收者描绘成人工智能代理可以将个人身份信息（PII）泄露量增加多达 23 个百分点。