Llama · PulseAugur

新方法通过高效的稀疏化、量化和压缩来加速大型语言模型

研究人员开发了几种新的方法来压缩和优化大型语言模型（LLMs），以提高效率并降低计算成本。SparseForge 通过优化稀疏掩码来专注于高效的半结构化稀疏化，以显著更少的重新训练 token 实现高精度。FASQ 引入了灵活的加速子空间量化，能够在没有校准数据的情况下实现连续的压缩级别，并在商品 GPU 上在准确性和速度方面均优于现有方法。此外，CoSpaDi 使用校准引导的稀疏字典学习进行结构化分解，改善了精度-压缩权衡。另一种方…

RESEARCH · CL_15728 · May 4 · 15:36

尽管多模态推理取得进展，MLLM仍显示出基础性的视觉差距

一篇新论文介绍了一种通过在推理时优化视觉潜在表征来改善多模态大型语言模型（MLLM）潜在推理的方法，解决了其贡献被抑制的病理现象。另外一项研究使用一个名为VisFactor的新基准，揭示了当前MLLM（包括GPT和Gemini等前沿模型）存在显著的基础性视觉差距。该基准基于人类认知心理学评估，突出了在空间关系推理和图形-背景分离等任务中的持续性失败，表明当前MLLM的表现可能无法反映真实的视觉认知。

RESEARCH · CL_15884 · May 3 · 21:52

Pair2Score framework transfers LLM pairwise comparisons to absolute essay scoring

Researchers have developed Pair2Score, a novel framework designed to improve the accuracy of LLM-based essay scoring by transferring knowledge from pairwise comparisons to absolute scoring. This two-stage process adapts…

TOOL · CL_17217 · May 3 · 07:06

什么是 Tokenization Drift 以及如何修复它？

Tokenization drift 发生于输入文本的微小格式更改（例如空格或换行符）导致模型生成不同的 token ID。这会引起模型行为的不可预测的变化，因为模型处理的是它未优化的输入。文章使用 GPT-2 tokenizer 演示了这一现象，展示了前导空格如何改变单词的 token ID 甚至其序列长度。文章提出了一种衡量此 drift 的方法，并实现了一个优化循环以确保一致可靠的提示格式。

TOOL · CL_13341 · May 2 · 22:03

精心策划的学习路径指导开发者构建实时语音AI代理

一个名为“面向初学者的语音AI”的新GitHub存储库，为开发者提供了一个构建实时语音AI代理的结构化学习路径。该指南涵盖了从初始语音到文本调用到扩展生产电话的整个过程。它详细介绍了现代语音AI堆栈，包括实时传输、流式管道和轮流模型，并将资源按难度级别进行分类。

RESEARCH · CL_11807 · Apr 30 · 18:55

New methods tackle LLM quantization for improved efficiency and accuracy

Researchers have developed several new methods to improve the efficiency of large language models (LLMs) through quantization. OSAQ focuses on suppressing weight outliers using a low-rank Hessian property for accurate l…

RESEARCH · CL_16137 · Apr 30 · 18:22

AI safety research probes jailbreak success and emergent misalignment in LLMs

Two new research papers explore the underlying causes of AI safety failures in large language models. One paper introduces LOCA, a method to provide local, causal explanations for why specific jailbreak prompts succeed,…

TOOL · CL_39306 · Apr 30 · 17:09

WhatsApp launches private AI chats with Meta AI

WhatsApp has introduced an

RESEARCH · CL_09365 · Apr 29 · 18:05

Databricks 因作者起诉其 LLM 训练数据而面临“巨额”版权赔偿

美国法官已允许针对 Databricks 的集体诉讼继续进行，该诉讼指控其 DBRX 大型语言模型使用了盗版的受版权保护的书籍进行训练。作者声称 Databricks 收购了 MosaicLM，而 MosaicLM 使用了包含约 196,000 种图书（包括他们的作品）的 RedPajama 数据集。Databricks 辩称作者无法证明 DBRX 是使用该特定数据训练的，但法官要求提供更多信息以确定是否发生了版权侵权。

RESEARCH · CL_09240 · Apr 29 · 15:00

Friendly AI chatbots more prone to conspiracy theories, study finds

Researchers have discovered that making AI chatbots more friendly can lead to a significant decrease in their accuracy and an increased tendency to support conspiracy theories. Studies showed that warmer chatbots were 3…

RESEARCH · CL_08642 · Apr 29 · 04:00

Transformer architecture significantly impacts model error detection capabilities

A new paper reveals that a transformer model's architecture significantly impacts its ability to signal decision quality through internal activations, a property termed 'observability.' This observability is crucial for…

RESEARCH · CL_07820 · Apr 28 · 18:03

斯坦福大学研究人员开发新硬件以高效处理稀疏人工智能模型

斯坦福大学的研究人员开发了一种新颖的硬件芯片，旨在高效处理稀疏人工智能模型。稀疏性（其中大多数人工智能模型参数为零）提供了显著的计算节省，但目前像CPU和GPU这样的硬件对其支持不佳。斯坦福大学的新芯片以及定制的固件和软件，可以跳过涉及零的计算，从而带来显著的能源和速度提升。这一发展可能能够以更小的环境影响实现更大、更强大的AI模型。

RESEARCH · CL_08315 · Apr 28 · 10:23

LLM幻觉与承诺失败相关，引入新的量化框架

一篇新论文提出，LLM幻觉并非源于知识缺乏，而是源于承诺失败，模型将概率质量分散到多个备选答案上，而不是集中于正确答案。这种现象随着模型规模的增大而增加，并且会因指令调优而加剧。另一篇论文介绍了GAMMA，一个用于混合精度量化的框架，该框架优化了LLM的比特分配，在内存限制下显著提高了准确性，并在Llama和Qwen模型上表现优于现有方法。此外，还开发了一个名为SciEval的基准，用于自动评估K-12科学教学材料，结果显示，当前主流…

RESEARCH · CL_06871 · Apr 28 · 04:00

序列模型预测心力衰竭患者的不稳定性和死亡率

研究人员开发了序列模型，利用电子健康记录来预测心力衰竭患者一年内的临床不稳定性和死亡率。该研究对瑞典一个由超过42,000名患者组成的队列进行，采用了一种将结构化电子健康记录数据转化为患者序列的框架。Llama等模型表现出强大的预测能力，优于传统方法，并且即使在临床概念或训练数据有限的情况下也显示出稳健性。

RESEARCH · CL_06752 · Apr 28 · 04:00

研究人员开发新方法来消除大型语言模型（LLM）奖励模型的偏差并改进其性能

研究人员开发了新的方法来提高用于对齐大型语言模型（LLM）的奖励模型（RM）的可靠性和可解释性。一种方法引入了因果驱动的干预技术，以在推理时减轻 RM 中的各种偏差，显示出对虚假特征的敏感性降低，而没有性能权衡。另一项开发是“reward-lens”库，它将机制可解释性工具应用于 RM，揭示线性归因并不总是能预测因果打补丁的效果。此外，一种称为时间连贯奖励建模（TCRM）的新方法将 RM 视为价值函数，从而能够进行可解释的 token…

RESEARCH · CL_06737 · Apr 28 · 04:00

New research introduces 'Geometric Canary' for LLM steerability and drift detection

Researchers have developed a new method called "geometric stability" to assess language models. This technique measures the consistency of a model's internal representation to predict its steerability and detect perform…

RESEARCH · CL_06664 · Apr 28 · 04:00

研究：移除 LLM 中的 LayerNorm 可作为隐式正则化器，其影响取决于训练数据大小。

研究人员调查了从神经网络架构中移除层归一化（LayerNorm）的影响，特别是在 GPT-2 和 Llama 等模型中。他们的发现表明，用学习到的激活边界机制动态双曲正切（DyT）替换 LayerNorm，可以作为一种依赖于训练阶段的隐式正则化器。这意味着 DyT 可以在某些训练阶段（例如，较小的数据集）提高性能，但在其他阶段（例如，较大的数据集或增加模型容量）会降低性能。该研究表明，激活饱和是 DyT 性能的关键因素，其饱和水平因模…

RESEARCH · CL_05239 · Apr 27 · 05:52

OpenKB 和 OpenRouter 实现无向量AI知识库；揭示LoRA的生产限制

一项新研究表明，LoRA和QLoRA微调方法所依据的低秩假设在生产环境中可能不成立。虽然这些技术能够在有限的硬件上高效地适应大型语言模型，但实际应用经常违反均匀分布的假设，导致性能问题。这一发现可能会对定制化LLM的开发和部署产生重大影响。

RESEARCH · CL_05151 · Apr 27 · 04:00

New research enables faster, more efficient LLMs on mobile devices

Researchers have developed new methods for deploying large language models on mobile devices, focusing on reducing latency and memory usage. One approach, MobileLLM-Flash, uses hardware-in-the-loop architecture search a…

RESEARCH · CL_05138 · Apr 27 · 04:00

大型语言模型展现范畴知觉和优化数据选择

研究人员开发了一个用于优化大型语言模型数据选择的新框架，使用高效代理将数据加权适应特定任务和模型。另一项研究调查了大型语言模型隐藏状态中的范畴知觉，发现在各种模型家族的数字计数边界处存在几何扭曲。这种被称为“结构化范畴知觉”的扭曲效应似乎是一种独立于显式语义知识的架构属性。