PulseAugur
实时 10:51:53
English(EN) UXBench: Measuring the Actionability of LLM-Generated UX Critiques

新基准评估LLM生成的UX评论的可操作性

研究人员开发了UXBench,这是一个旨在评估大型语言模型(LLM)在评估用户体验(UX)评论方面的有效性的新基准。该基准包括跨各种产品表面的可运行Web固定装置和一个要求模型在生成报告前收集交互证据的系统。对八个前沿模型进行的评估结果表明,其UX评论的可操作性存在显著差异,模型在不同产品类别和评估方法中表现出独特的优势和劣势。 AI

排序理由 该集群描述了一篇介绍用于评估LLM能力的基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Wenjie Wang, Yue Huang, Zipeng Ling, Han Bao, Hang hua, Xiaonan Luo, Yu Jiang, Shiyi Du, Yuexing Hao, Xiaomin Li, Yuchen Ma, Dianzhuo Wang, Yanfang Ye, Xiangliang Zhang ·

    UXBench: Measuring the Actionability of LLM-Generated UX Critiques

    arXiv:2606.16262v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly deployed as UX judges that inspect interfaces, diagnose usability problems, and propose repairs. Yet no controlled benchmark measures whether the resulting critiques are reliable and a…