研究人员开发了一个新的基准测试,用于评估大型语言模型(LLM)在自动化专业生产力软件(如Word、Excel和PowerPoint)方面的能力。他们的评估基于中国的全国计算机等级考试,包含200个实际任务和超过7000个机器可评分标准。前沿LLM表现困难,单轮模型最高得分仅为36.6%,即使是先进的代理系统也只能达到68.8%,远低于95.5%的参考分数。 AI
影响 突显了当前LLM在实际办公自动化任务中的显著局限性,表明通用推理与精确软件交互之间存在差距。
排序理由 学术论文,介绍LLM在办公软件自动化能力方面的新基准测试。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →