研究人员推出UA-ChatDev,一个旨在利用大型语言模型提高软件开发可靠性的新框架。该系统通过将不确定性量化机制整合到智能体交互中,解决了幻觉传播问题。UA-ChatDev使用token级别的对数概率评估智能体响应的置信度,并采用面向阶段的阈值校准,在不确定性高时触发验证。在SRDD基准上的实验表明,UA-ChatDev在各种质量指标上均优于现有的单智能体和多智能体框架,提高了代码执行的可靠性。 AI
影响 通过减轻幻觉传播,增强了LLM驱动的软件开发的可靠性。
排序理由 该条目是一篇研究论文,详细介绍了一个使用LLM进行软件开发的新框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →