PulseAugur
实时 17:08:16
English(EN) Benchmarking Knowledge Editing using Logical Rules

新基准揭示大语言模型知识编辑缺乏逻辑推理能力

研究人员开发了一个新的基准来评估大语言模型中的知识编辑,重点关注逻辑推论而非直接事实回忆。该基准使用从知识图中提取的逻辑规则生成多跳问题,揭示当前编辑方法难以整合蕴含的知识。实验显示,直接断言编辑与处理逻辑含义之间的性能差距高达24%,凸显了对更具语义意识的评估框架的需求。 AI

影响 突出了大语言模型知识编辑中的一个关键差距,表明当前方法未能捕捉逻辑蕴含,这可能会影响它们在实际应用中的可靠性。

排序理由 该集群包含一篇学术论文,详细介绍了用于评估大语言模型知识编辑技术的新基准。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Tatiana Moteu Ngoli, NDah Jean Kouagou, Hamada M. Zahera, Axel-Cyrille Ngonga Ngomo ·

    Benchmarking Knowledge Editing using Logical Rules

    arXiv:2606.10554v1 Announce Type: cross Abstract: Large Language Models (LLMs) are increasingly deployed in real-world applications that require access to up-to-date knowledge. However, retraining LLMs is computationally expensive. Therefore, knowledge editing techniques are cruc…

  2. arXiv cs.AI TIER_1 English(EN) · Axel-Cyrille Ngonga Ngomo ·

    使用逻辑规则进行知识编辑基准测试

    Large Language Models (LLMs) are increasingly deployed in real-world applications that require access to up-to-date knowledge. However, retraining LLMs is computationally expensive. Therefore, knowledge editing techniques are crucial for maintaining current information and correc…