Microsoft Research 开发的新基准 DELEGATE-52 显示,当前的大型语言模型在委托工作流程中会显著损坏文档。即使是 Gemini 3.1 Pro、Claude 4.6 Opus 和 GPT 5.4 等先进模型,在扩展编辑任务中也会损坏约 25% 的文档内容。Agentic 工具进一步加剧了这一问题,增加了 6% 的损坏率,表明在各种专业领域中,AI 辅助文档编辑的信任度和可靠性普遍存在问题。 AI
影响 当前的 LLMs 在委托任务中会在文档中引入重大错误,破坏了企业采纳的信任度和准备度。
排序理由 该集群报告了一项新基准及其在文档编辑任务中 LLM 性能方面的发现。
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →