实体 AlpacaEval

AlpacaEval

PulseAugur coverage of AlpacaEval — every cluster mentioning AlpacaEval across labs, papers, and developer communities, ranked by signal.

总计 · 30天

7

90 天内 7

发布 · 30天

0

90 天内 0

论文 · 30天

6

90 天内 6

层级分布 · 90 天

research 5
tool 1
commentary 1

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 7 条

TOOL · CL_117508 · Jun 30 · 04:00

新研究强调AI“宪法”的模糊性以及跨模型原则差异

一篇新发表在arXiv上的研究论文探讨了语言模型“宪法”的重建挑战和开放性问题。“宪法”是指从偏好数据中提取的一组自然语言原则。研究强调，仅仅列出原则是不够的，因为这些原则的构成和执行仍然存在模糊性。研究发现，执行这些原则的不同方法可能导致不同的结果，并且不同语言模型的“宪法”可能存在显著差异。该论文提出，应将“宪法”作为“宪法执行系统”的一部分进行评估，以提高可解释性和一致性。
COMMENTARY · CL_115362 · Jun 29 · 01:19

LLM 裁判成为评估 AI 编码性能的关键工具

“LLM 裁判”的概念正作为一种评估大型语言模型性能的方法出现，尤其是在编码任务方面。这些裁判通常由 GPT-4 或 Claude 3 等先进模型提供支持，根据特定标准评估其他模型的输出。AlpacaEval 和 Mt Bench 等基准测试采用了这种方法来比较 Vicuña、Llama 2 和 mistral.ai 等模型，旨在提供对模型能力更细致的理解，超越简单的准确性指标。
RESEARCH · CL_93583 · Jun 15 · 10:30

新的DoubtProbe防御显著减少了LLM越狱

研究人员开发了DoubtProbe，这是一种新颖的防御机制，旨在应对黑盒场景下大型语言模型（LLM）的越狱尝试。该双分支框架结合了结构验证和语义审计，以识别逃避安全对齐的越狱提示中的不一致之处。在Qwen2.5-72B和Llama 3.1 70B等模型上进行测试时，DoubtProbe显著降低了攻击成功率，同时在良性请求上保持了较低的误报率。
RESEARCH · CL_62284 · May 29 · 10:49

EvoDefense 使用大型语言模型协同进化黑盒攻击的防御机制

研究人员开发了 EvoDefense，这是一种在黑盒场景下保护大型语言模型（LLM）免受攻击的新颖方法。该系统使用一个守护 LLM 和一个经验记忆，通过迭代的攻击-防御进化循环不断完善防御策略。EvoDefense 展现出强大的泛化能力，无需重新训练即可有效防御未见的攻击和各种 LLM 架构。
RESEARCH · CL_10517 · Apr 30 · 10:24

IBM 新推出的 8B Granite 4.1 模型性能超越了旧款 32B MoE 版本

IBM 发布了 Granite 4.1，这是一个专为企业设计的开源语言模型家族，包含三种尺寸（3B、8B 和 30B 参数）。值得注意的是，在 ArenaHard 和 GSM8K 等多项基准测试中，8B 密集模型表现出的性能与之前的 32B MoE 模型相当甚至更优。这一改进归功于 IBM 对数据质量的关注以及涉及 15 万亿 token 和迭代数据混合调整的复杂多阶段训练过程。
RESEARCH · CL_06752 · Apr 28 · 04:00

研究人员开发新方法来消除大型语言模型（LLM）奖励模型的偏差并改进其性能

研究人员开发了新的方法来提高用于对齐大型语言模型（LLM）的奖励模型（RM）的可靠性和可解释性。一种方法引入了因果驱动的干预技术，以在推理时减轻 RM 中的各种偏差，显示出对虚假特征的敏感性降低，而没有性能权衡。另一项开发是“reward-lens”库，它将机制可解释性工具应用于 RM，揭示线性归因并不总是能预测因果打补丁的效果。此外，一种称为时间连贯奖励建模（TCRM）的新方法将 RM 视为价值函数，从而能够进行可解释的 token…
RESEARCH · CL_44017 · Apr 17 · 00:00

新的DPO方法通过自适应技术增强LLM对齐

研究人员在直接偏好优化（DPO）方面取得了几项进展，DPO是一种用于将大型语言模型（LLM）与人类偏好对齐的方法。AdaDPO引入了自适应系数来平衡梯度更新，提高了效率并减轻了长度偏差，在基准测试中表现优于标准DPO。Uni-DPO提供了一个统一的动态框架，根据数据质量和模型性能自适应地重新加权样本，在各种任务上取得了优于Claude 3 Opus的卓越结果。此外，AttentionPO利用LLM自身的注意力机制来加权token，使其…