PulseAugur
实时 10:12:38
English(EN) MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems

MORTAR系统自动化大型语言模型对话系统的多轮测试

研究人员推出了一种名为MORTAR的新方法,用于测试基于大型语言模型(LLM)的对话系统,该方法专门解决了多轮交互的挑战。与之前专注于单轮测试的方法不同,MORTAR通过自动化生成具有各种扰动和变异关系的对话测试用例,来解决多轮对话中固有的“预言家问题”。这个自动化系统不依赖LLM裁判,并且已证明其错误检测率显著提高,与单轮测试基线相比,每测试用例多检测出150%以上的错误。该方法在错误的质量方面也 yields 更高的多样性、精确性和独特性,为对话系统提供了一种更全面的评估方法。 AI

影响 增强了对话式AI的质量保证流程,有望带来更强大、更可靠的对话系统。

排序理由 详细介绍大型语言模型对话系统新测试方法的论文。[lever_c_research降级:ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Aaron Guoxiang Guo, Aldeida Aleti, Neelofar Neelofar, Chakkrit Tantithamthavorn, Yuanyuan Qi, Tsong Yueh Chen ·

    MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems

    arXiv:2412.15557v4 Announce Type: replace-cross Abstract: With the widespread application of LLM-based dialogue systems in daily life, quality assurance has become more important than ever. Recent research has successfully introduced methods to identify unexpected behaviour in si…