English(EN) MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems

MORTAR系统自动化大型语言模型对话系统的多轮测试

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 04:00

研究人员推出了一种名为MORTAR的新方法，用于测试基于大型语言模型（LLM）的对话系统，该方法专门解决了多轮交互的挑战。与之前专注于单轮测试的方法不同，MORTAR通过自动化生成具有各种扰动和变异关系的对话测试用例，来解决多轮对话中固有的“预言家问题”。这个自动化系统不依赖LLM裁判，并且已证明其错误检测率显著提高，与单轮测试基线相比，每测试用例多检测出150%以上的错误。该方法在错误的质量方面也 yields 更高的多样性、精确性和独特性，为对话系统提供了一种更全面的评估方法。 AI

影响增强了对话式AI的质量保证流程，有望带来更强大、更可靠的对话系统。

排序理由详细介绍大型语言模型对话系统新测试方法的论文。[lever_c_research降级：ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Aaron Guoxiang Guo, Aldeida Aleti, Neelofar Neelofar, Chakkrit Tantithamthavorn, Yuanyuan Qi, Tsong Yueh Chen · 2026-06-18 04:00

MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems

arXiv:2412.15557v4 Announce Type: replace-cross Abstract: With the widespread application of LLM-based dialogue systems in daily life, quality assurance has become more important than ever. Recent research has successfully introduced methods to identify unexpected behaviour in si…

报道来源 [1]

MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems

相关实体

相关话题