English(EN) Benchmarking Knowledge Editing using Logical Rules

新基准揭示大语言模型知识编辑缺乏逻辑推理能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-09 08:21

研究人员开发了一个新的基准来评估大语言模型中的知识编辑，重点关注逻辑推论而非直接事实回忆。该基准使用从知识图中提取的逻辑规则生成多跳问题，揭示当前编辑方法难以整合蕴含的知识。实验显示，直接断言编辑与处理逻辑含义之间的性能差距高达24%，凸显了对更具语义意识的评估框架的需求。 AI

影响突出了大语言模型知识编辑中的一个关键差距，表明当前方法未能捕捉逻辑蕴含，这可能会影响它们在实际应用中的可靠性。

排序理由该集群包含一篇学术论文，详细介绍了用于评估大语言模型知识编辑技术的新基准。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Tatiana Moteu Ngoli, NDah Jean Kouagou, Hamada M. Zahera, Axel-Cyrille Ngonga Ngomo · 2026-06-10 04:00

Benchmarking Knowledge Editing using Logical Rules

arXiv:2606.10554v1 Announce Type: cross Abstract: Large Language Models (LLMs) are increasingly deployed in real-world applications that require access to up-to-date knowledge. However, retraining LLMs is computationally expensive. Therefore, knowledge editing techniques are cruc…
arXiv cs.AI TIER_1 English(EN) · Axel-Cyrille Ngonga Ngomo · 2026-06-09 08:21

使用逻辑规则进行知识编辑基准测试

Large Language Models (LLMs) are increasingly deployed in real-world applications that require access to up-to-date knowledge. However, retraining LLMs is computationally expensive. Therefore, knowledge editing techniques are crucial for maintaining current information and correc…