研究人员推出了iOSWorld,这是一个旨在评估AI代理在移动设备上个性化能力的新基准测试。该基准测试包含一个模拟的iOS环境,其中有26个相互关联的应用程序,可以存储用户特定的数据,如消息和财务记录。它包括133个任务,从单应用程序操作到需要记忆和个性化推理的复杂多应用程序场景。初步评估显示,即使是先进的模型也难以完成这些任务,最佳配置的整体准确率仅为52%。 AI
影响 该基准测试将推动开发更具个性化和上下文感知能力的移动设备AI代理。
排序理由 该集群描述了一个新的AI代理基准测试,属于研究范畴。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →