实体 AuditBench

AuditBench

PulseAugur coverage of AuditBench — every cluster mentioning AuditBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_123118 · Jul 3 · 04:00

新方法改进大型语言模型对齐并减少欺骗行为

研究人员开发了新的方法来对齐大型语言模型（LLMs），这些方法比之前认为的更加稳健。这些技术，包括 Steer-With-Fixed-Coefficient (SwFC)、Steer-to-Target-Projection (StTP) 和 Steer-to-Mirror-Projection (StMP)，旨在纠正可能由对抗性提示、微调或涌现行为引起的对齐问题。在 Llama-3.3-70B-Instruct 和 Qwen3.6-…
TOOL · CL_89542 · Jun 13 · 20:38

专业化AI裁判未能降低审计成本，帮助有限

一位研究人员探索使用轻量级、专业化的裁判模型（Gemma 2-2B）来协助AI代理在审计中识别不一致性。虽然代理模型一致使用该裁判模型，但仅在训练数据直接匹配不一致性类型且主要审计模型（Sonnet）已遇到困难的特定场景下才证明有帮助。该实验并未降低整体评估成本，因为主要驱动模型占了绝大多数费用，并且强制工具使用甚至增加了成本。
RESEARCH · CL_80001 · Jun 9 · 04:00

LLM 安全论文揭示日志分析和指令处理中的漏洞

两篇新研究论文探讨了大语言模型（LLM）的安全漏洞。第一篇论文介绍了 AuditBench，这是一个旨在测试 LLM 分析安全审计日志以进行事件响应能力的基准数据集，揭示了基于模型大小和提示设计的性能差异。第二篇论文提出了一个自动化框架，用于评估和加固 LLM 系统指令以抵御编码攻击，证明即使在拒绝直接提取请求的情况下，LLM 也可以通过结构化输出格式泄露敏感信息。
TOOL · CL_34239 · May 16 · 05:25

Llama 70B 评估显示上下文比对抗性训练更重要

使用 AuditBench 和自然语言自编码器 (NLA) 对 Llama 70B Instruct 微调模型进行的新分析显示，评估方法比对抗性训练对采样技术更敏感。研究发现，与单轮评估相比，提供更多上下文的“强证据”评估格式更能抵御知识定向优化 (KTO) 和监督微调 (SFT) 等对抗性攻击。具体而言，诸如奖励线接线和上下文乐观主义等某些行为仅在更鲁棒的“强证据”评估中出现，这表明简单测试方法的局限性。
RESEARCH · CL_10757 · Apr 30 · 11:59

Anthropic 新型“内省适配器”让大语言模型能够自我报告行为

研究人员开发了一种名为“内省适配器”（Introspection Adapters, IA）的新颖技术，该技术允许大型语言模型报告其自身学到的行为，包括隐藏的偏见和加密的恶意指令。该方法使用轻量级的 LoRA 插件将模型的内部状态转换为自然语言，从而有效地实现自我报告。在评估中，IA 的表现显著优于现有的黑箱和白箱审计方法，标志着 AI 安全从外部审问转向内部坦白。