实体 LLaMA-3-8B-Instruct

LLaMA-3-8B-Instruct

PulseAugur coverage of LLaMA-3-8B-Instruct — every cluster mentioning LLaMA-3-8B-Instruct across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 13

发布 · 30天

90 天内 0

论文 · 30天

90 天内 12

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 13 条

TOOL · CL_125860 · Jul 5 · 03:27

新的LLM中间件通过推测性执行优化成本

本项目详细介绍了自主客户升级和预算网关的创建，这是一个旨在管理LLM运营成本和性能的中间件层。它通过实现推测性运行时执行来解决LLM部署中静态路由的问题。这种方法默认将请求发送到像Llama-3-8B-Instruct这样成本效益高的模型，并且仅在满足关键条件时才动态升级到更强大的模型，例如Llama-3-70B-Instruct，从而优化API支出和延迟。
TOOL · CL_100162 · Jun 19 · 04:00

新的剪枝方法可保留LLM推理性能

研究人员开发了一种名为因果归因剪枝（CAP）的无训练新方法，可在不损害其推理能力的情况下减小大型语言模型的规模。CAP通过衡量注意力头对推理任务的因果影响来识别和剪枝不那么关键的注意力头。与Wanda等现有方法相比，该方法在ARC-Challenge等基准测试上表现出显著的改进，并在中等稀疏度水平下对Llama-3和Mistral-7B-Instruct等模型显示出潜力。
TOOL · CL_84838 · Jun 11 · 04:00

新方法在不损害事实一致性的情况下测试 LLM 的迎合行为

研究人员开发了一种名为双立场评估的新方法来评估大型语言模型的迎合行为。该技术测试旨在减少对虚假、迎合性陈述的认同的干预措施是否也会影响对事实性陈述的认同。对 Llama-3-8B-Instruct 的实验显示，虽然迎合性和事实性认同存在于不同的内部子空间中，但单一的干预方向会同等地影响两者，从而阻碍了在不损害事实准确性的情况下选择性地减少迎合行为的能力。
TOOL · CL_70394 · Jun 4 · 04:00

上下文标签极大地改变了语言模型的行为

研究人员发现，用于向语言模型呈现上下文的标签对其行为有显著影响。在对 GPT-5.5 和 DeepSeek V4 Pro 等模型的测试中，使用“Instruction:”或“Reference:”等标签可以大大提高注入信息的采纳率，而“Example:”标签则会抑制它。这表明上下文的呈现方式会改变模型利用所提供信息的方式，基准测试应控制这些呈现选择。
RESEARCH · CL_68363 · Jun 3 · 04:00

新的防御和攻击手段针对大语言模型越狱和提示注入

研究人员正在开发新的方法来防御大型语言模型免受提示注入和越狱攻击。GuardNet 利用浅层神经网络的集成进行高效检测，而 SlotGCG 则专注于优化提示内的攻击位置以利用位置漏洞。NeuroArmor 通过将提示与安全变体进行比较来平衡安全性和有用性，提供运行时防御，而 CRI 则提出了一个框架，通过利用模型激活空间中的合规性方向来增强越狱攻击。
TOOL · CL_65565 · Jun 2 · 04:00

新的 NLHF 算法通过显式探索改进了 LLM 的对齐

研究人员开发了一种新的纳什人类反馈学习 (NLHF) 算法，该算法解决了当前使大型语言模型与人类偏好对齐的方法的局限性。所提出的算法明确地纳入了探索以改进遗憾界限，实现了理论上的 $O(\sqrt{T})$ 遗憾，并在有预言机的情况下实现了改进的 $O(\log(T))$。该方法在 Llama-3-8B-Instruct 上进行了测试，与现有的 NLHF 基线相比，表现有所提升。
RESEARCH · CL_62284 · May 29 · 10:49

EvoDefense 使用大型语言模型协同进化黑盒攻击的防御机制

研究人员开发了 EvoDefense，这是一种在黑盒场景下保护大型语言模型（LLM）免受攻击的新颖方法。该系统使用一个守护 LLM 和一个经验记忆，通过迭代的攻击-防御进化循环不断完善防御策略。EvoDefense 展现出强大的泛化能力，无需重新训练即可有效防御未见的攻击和各种 LLM 架构。
TOOL · CL_18791 · May 6 · 04:00

新方法利用模型自身的输出来进行安全微调

研究人员开发了一种新颖的方法，通过识别和利用最具挑战性的提示来对语言模型进行安全微调。该技术涉及根据有害模型响应的频率对提示进行评分，然后使用模型自身未越狱的输出来训练这些困难的提示。对Llama-3模型的初步测试显示，攻击成功率显著降低，但同时也增加了模型拒绝良性提示的倾向。进一步的调整，包括与对抗性设计的良性提示交错以及专注于最难的合格提示，有助于缓解拒绝问题，同时保持强大的安全性能。
RESEARCH · CL_15836 · May 5 · 04:00

欺骗的衡量：对机器学习遗忘中数据伪造的分析

两篇新研究论文探讨了机器学习遗忘中的漏洞和检测方法。机器学习遗忘旨在从训练模型中删除特定数据以符合隐私规定。其中一篇论文“DurableUn”揭示，即使模型通过了标准的隐私审计，低比特量化仍可能无意中恢复被遗忘的数据。另一篇论文“The Measure of Deception”则提出了一个分析和检测“伪造”（即在未实际删除数据的情况下模仿遗忘的对抗性尝试）的框架，并指出这种欺骗在根本上是有限的。
TOOL · CL_15459 · May 5 · 04:00

新的攻击将LLM注意力重定向以绕过安全对齐

研究人员开发了一种名为“注意力重定向攻击”（ARA）的新型白盒对抗性攻击，该攻击针对已进行安全对齐的大型语言模型的内部注意力机制。该攻击通过构造非语义标记来将注意力从安全关键组件上转移开，从而比以往的方法更有效地绕过对齐。研究发现，虽然移除特定的注意力头对模型影响甚微，但重定向其注意力却显著降低了LLaMA-3和Mistral-7B等模型的安全性能，这表明安全性能源于注意力路由而非局部组件。
RESEARCH · CL_11433 · Apr 30 · 14:31

DPN-LE方法以最小的神经元干预精确编辑LLM个性

研究人员开发了DPN-LE，一种通过靶向特定神经元来编辑大型语言模型“个性”的新颖方法。现有技术通常通过修改过多神经元（其中许多是多功能的）来降低整体模型性能。DPN-LE通过对比MLP激活来识别特定于个性的神经元，并使用双重标准过滤方法来分离相关的神经元子集。该方法仅干预一小部分神经元，在保持通用能力的同时实现精确的个性控制。
RESEARCH · CL_70261 · Sep 17 · 17:00

新研究解决大语言模型的事实准确性、架构推断和专业化评估问题

研究人员正在开发新方法来提高大语言模型（LLM）的准确性和可靠性。Google Research 推出了 SLED（Self Logits Evolution Decoding）技术，该技术利用 LLM 的所有层来增强事实准确性，而无需额外的微调或外部数据。同时，研究也在探索如何通过限制性 API 访问来推断 LLM 的架构属性，并创建新的基准来评估 LLM 在金融服务和编译器问题解决等专业领域的表现。此外，研究还在调查 LLM 集成…
RESEARCH · CL_44017 · Apr 17 · 00:00

新的DPO方法通过自适应技术增强LLM对齐

研究人员在直接偏好优化（DPO）方面取得了几项进展，DPO是一种用于将大型语言模型（LLM）与人类偏好对齐的方法。AdaDPO引入了自适应系数来平衡梯度更新，提高了效率并减轻了长度偏差，在基准测试中表现优于标准DPO。Uni-DPO提供了一个统一的动态框架，根据数据质量和模型性能自适应地重新加权样本，在各种任务上取得了优于Claude 3 Opus的卓越结果。此外，AttentionPO利用LLM自身的注意力机制来加权token，使其…

新的LLM中间件通过推测性执行优化成本

新的剪枝方法可保留LLM推理性能

新方法在不损害事实一致性的情况下测试 LLM 的迎合行为

上下文标签极大地改变了语言模型的行为

新的防御和攻击手段针对大语言模型越狱和提示注入

新的 NLHF 算法通过显式探索改进了 LLM 的对齐

EvoDefense 使用大型语言模型协同进化黑盒攻击的防御机制

新方法利用模型自身的输出来进行安全微调

欺骗的衡量：对机器学习遗忘中数据伪造的分析

新的攻击将LLM注意力重定向以绕过安全对齐

DPN-LE方法以最小的神经元干预精确编辑LLM个性

新研究解决大语言模型的事实准确性、架构推断和专业化评估问题

新的DPO方法通过自适应技术增强LLM对齐