English(EN) Macro: Enhancing Multilingual Counterfactual Explanations through Alignment-as-Preference Optimization

新框架Macro改进多语言LLM解释

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:00

研究人员开发了Macro，一个旨在改进多语言大型语言模型反事实解释生成的新框架。该方法利用直接偏好优化（DPO）来平衡解释有效性和输入修改最小化之间的权衡。实验表明，Macro在不牺牲最小化的前提下显著提高了解释的有效性，优于链式思考（chain-of-thought）和监督微调（supervised fine-tuning）等先前方法。 AI

影响增强了跨不同语言的LLM的可解释性，可能有助于调试和安全研究。

排序理由该集群包含一篇详细介绍改进LLM解释新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Yilong Wang, Qianli Wang, Bohao Chu, Yihong Liu, Jing Yang, Simon Ostermann · 2026-06-05 04:00

宏观：通过对齐即偏好优化增强多语言反事实解释

arXiv:2605.11632v2 Announce Type: replace Abstract: Self-generated counterfactual explanations (SCEs) are minimally modified inputs (minimality) generated by large language models (LLMs) that flip their own predictions (validity), offering a causally grounded approach to unraveli…

报道来源 [1]

宏观：通过对齐即偏好优化增强多语言反事实解释

相关实体

相关话题