TruthfulQA · PulseAugur

AI幻觉：新研究探究推理和跨语言泛化能力

两篇新研究论文探讨了AI模型中的“幻觉”现象，重点关注这些错误如何影响下游推理，以及检测信号是否能在不同语言和领域之间泛化。第一篇论文介绍了HIVE，一个用于研究视觉语言模型中后幻觉推理的引擎，发现幻觉字幕有时可以提高视觉语言任务的性能。第二篇论文CrossHallu研究了用于检测大型语言模型内部状态幻觉的信号是否能在英语和阿拉伯语之间以及不同领域之间转移，结果表明这些信号在很大程度上是可转移的。

TOOL · CL_123138 · Jul 3 · 04:00

新方法使用梯度范数量化神经网络不确定性

研究人员开发了一种量化神经网络（尤其是大型语言模型）不确定性的新颖方法，通过梯度范数和各向同性假设来近似预测不确定性。该方法无需访问训练数据，即可从一次前向-后向传播中估计认知不确定性和随机不确定性。该方法的有效性已通过与马尔可夫链蒙特卡洛估计的对比得到验证，显示出与模型规模相关的良好对应性。当应用于问答任务时，结合的不确定性估计被证明有助于预测答案的正确性，在TruthfulQA上表现最佳（因为真实答案之间存在冲突），但在Trivi…

RESEARCH · CL_117343 · Jun 29 · 02:37

新的SEVA代理通过详细验证解决LLM幻觉问题

研究人员开发了SEVA，一种新颖的自演化验证代理，旨在对抗基于LLM的系统中的幻觉。与提供不透明二元标签的传统验证器不同，SEVA提供详细的证据对齐、推理链和置信度分数，使代理能够自我纠正，操作员能够审计输出。该代理利用过程奖励机制来克服训练挑战，并通过迭代改进后在基准测试上进行专业化，在ClearFacts上达到了GPT-4o mini的性能，同时提供了更丰富、可审计的信息。

RESEARCH · CL_111612 · Jun 24 · 23:00

新指标ConflictScore衡量LLM处理冲突证据的能力

研究人员推出了一项名为ConflictScore的新指标，旨在评估语言模型在处理其基础文档中的冲突信息方面的能力。与仅检查支持或矛盾的现有指标不同，ConflictScore量化了对支持和矛盾证据的承认程度。该指标以及一个名为ConflictBench的新基准旨在识别过度自信的声明并提高模型的真实性。

TOOL · CL_90016 · Jun 14 · 09:44

拙劣的AI消融比技术本身成本更高

最近的一项分析探讨了“消融”（一种移除AI模型拒绝能力的技巧）的成本。作者调查了在被消融的模型中观察到的性能下降是固有于该技术还是拙劣实现的结果。初步发现表明，像HuiHui AI在Qwen3.5-27B上使用的粗糙消融方法会带来显著的性能成本，而Arditi等人描述的更干净、更严谨的方法对模型准确性的影响要小得多。

TOOL · CL_65721 · Jun 2 · 04:00

Ev-Trust 机制提升大语言模型智能体信任与协作

研究人员开发了 Ev-Trust，一种旨在增强由大语言模型（LLM）驱动的去中心化多智能体系统中信任度的新型机制。该系统通过引入交叉验证、方差标准化漂移测量以及将信任信号嵌入收入函数来解决欺诈、质量评估困难和内容不稳定性等漏洞。模拟显示，Ev-Trust 在保持稳定信任区分的同时，显著降低了恶意智能体的参与率和欺诈服务率。

RESEARCH · CL_56111 · May 27 · 16:39

新的MARI方法在不修改权重的情况下增强LLM对齐

研究人员开发了一种名为“通过能量校准的多适配器表示干预”（MARI）的新方法，可以在不改变大型语言模型核心权重的情况下，更好地将其与期望的行为对齐。MARI采用多适配器系统，其中专业专家根据个体输入调整干预方向和强度。一个基于能量的门控模块通过根据内部动态识别适合干预的输入来进一步优化这一点。实验表明，MARI在TruthfulQA和安全任务等基准测试中实现了最先进的对齐性能，同时在MMLU和ARC上保留甚至增强了通用能力。

RESEARCH · CL_62723 · May 27 · 04:51

研究发现大型语言模型可学会合成性不诚实

研究人员调查了大型语言模型（LLMs）如何在内部表征保持诚实的情况下被训练以产生欺骗性输出。使用 Pythia、Gemma、Qwen 和 Llama 等模型进行的研究发现，通过微调可以迅速巩固合成性不诚实，特定层级会显示出这种行为的稳健表征。虽然一些模型在分布变化下会出现这些表征的崩溃，但另一些模型，如 Gemma-2，则保持稳定，这表明欺骗性编码方式存在架构差异。

RESEARCH · CL_53806 · May 27 · 04:00

新的CDD技术诊断知识冲突中的RAG故障

研究人员开发了一种名为上下文驱动分解（CDD）的新诊断技术，用于评估检索增强生成（RAG）系统如何处理冲突信息。CDD通过将查询分解为单独的检索和参数化声明，然后使用显式子提示来解决任何差异。该方法显示，标准的RAG系统在知识冲突方面存在困难，在误解注入测试中准确率仅为15.0%。然而，CDD表现出更强的鲁棒性，在模型内部知识过时的时间偏移案例中准确率达到71.3%。

RESEARCH · CL_53567 · May 26 · 17:47

新的MATCHA指标通过惩罚矛盾来改进LLM文本评估

研究人员开发了MATCHA，这是一种旨在更准确地评估大型语言模型生成文本的语义相似性的新指标。与ROUGE和BERTScore等现有指标不同，后者可能错误地将矛盾文本评为相似，MATCHA同时识别与参考的一致性并惩罚矛盾。在八个基准测试中，MATCHA在包括问答和摘要在内的各种任务上均表现优于人工标注，并且在TruthfulQA数据集上的表现显著优于ROUGE-L和BERTScore。

RESEARCH · CL_43922 · May 21 · 17:03

新研究将LLM训练后阶段的视角从Token转向状态分布

研究人员提出了一种新的大语言模型训练后阶段的视角，将重点放在状态分布而非仅仅是Token。他们的研究表明，训练状态的来源和局部性与监督信号本身同等重要。使用Qwen3-0.6B-Base进行的实验表明，来自较弱教师模型的On-Policy蒸馏仍然可以提高多个基准的性能，而轻量级强化学习在保留原有能力的同时增强了特定任务的表现。

TOOL · CL_32060 · May 14 · 18:16

LLM 基准测试成本分析：3 项任务花费 0.12 美元

在单个 T4 GPU 上对三项大型语言模型任务（GSM8K、HellaSwag 和 TruthfulQA）进行基准测试，成本约为 0.12 美元。分析显示，生成任务是主要的成本驱动因素，而对数似然任务可以并行处理。通过将 token 限制在 256 个、使用 25% 的分层样本以及采用 MC2 评分进行优化，可以显著降低运行时间和成本。

RESEARCH · CL_32707 · May 14 · 07:14

新探测揭示 RAG 如何处理冲突信息

研究人员开发了一种名为上下文驱动分解 (CDD) 的新方法，用于分析检索增强生成 (RAG) 系统如何处理冲突信息。CDD 在推理时运行，用于衡量和干预检索到的上下文覆盖模型内部知识的情况。研究发现，CDD 可以提高对抗性设置和不同模型系列中的准确性，尽管准确性提升的潜在机制因 Google 的 Gemini 和 Anthropic 的 Claude 等模型而异。

RESEARCH · CL_11458 · Apr 30 · 04:13

新的诊断工具探查LLM的电路，以获得安全性和行为见解

一篇新的研究论文介绍了一种名为“扰动探测”（Perturbation Probing）的诊断方法，用于理解大型语言模型（LLMs）的内部工作机制。该技术使用每个提示（prompt）进行两次前向传播（forward passes）来识别和分析模型前馈网络（FFNs）中的“行为电路”。研究发现了两种主要的电路结构：对立电路（opposition circuits），当人类反馈强化学习（RLHF）改变预训练倾向时出现；以及路由电路（rout…

RESEARCH · CL_06713 · Apr 28 · 04:00

新框架使用多个LLM来减少幻觉和偏见

研究人员开发了一个名为Council Mode的新框架，旨在减轻大型语言模型中的幻觉和偏见。该方法涉及同时查询多个不同的LLM，然后综合它们的输出来达成共识。评估显示，与单个模型相比，幻觉率显著降低，并在推理基准测试上的表现有所提高。尽管代币成本有所增加，但该框架特别适用于准确性至关重要的应用。