研究人员开发了 RippleBench-Maker,一个旨在识别和量化针对性干预对语言模型涟漪效应的自动化流程。该系统利用维基百科等现有知识库,生成与源概念在不同语义距离的问题。当应用于 Llama3-8B-Instruct 等模型的八种不同的遗忘方法时,该系统显示准确性下降在目标概念附近最大,并随着语义距离的增加而减小。值得注意的是,这些涟漪效应的传播特征在不同的基础模型中被发现是一致的,这表明它们是遗忘方法本身的属性。 AI
影响 提供了一种标准化的方法来衡量和比较 AI 模型修改的意外后果,这对于安全性和可靠性至关重要。
排序理由 该集群描述了一篇介绍用于评估 AI 模型行为的新基准和新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Amazon Mechanical Turk
- Hugging Face
- Llama3-8B-Instruct
- Mistral-7B
- RippleBench
- RippleBench-Maker
- RippleBench-WMDP-Bio
- Roy Rinberg
- Wikipedia
- WikiRAG
- Yi-34B
- Zephyr-7B
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →