研究人员开发了UXBench,这是一个旨在评估大型语言模型(LLM)在评估用户体验(UX)评论方面的有效性的新基准。该基准包括跨各种产品表面的可运行Web固定装置和一个要求模型在生成报告前收集交互证据的系统。对八个前沿模型进行的评估结果表明,其UX评论的可操作性存在显著差异,模型在不同产品类别和评估方法中表现出独特的优势和劣势。 AI
排序理由 该集群描述了一篇介绍用于评估LLM能力的基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →