研究人员开发了FutureSim,这是一个旨在评估AI智能体在动态、真实世界场景中适应能力的新基准。该系统按时间顺序重演历史事件,使智能体能够根据接收到的新闻和信息预测未来事件。对前沿智能体的初步测试显示出显著的性能差距,表现最好的智能体在预测三个月内的事件时准确率仅为25%,许多智能体的表现甚至不如随机猜测。 AI
影响 提供了一种评估AI智能体在真实世界场景中适应能力的新方法,突显了当前的局限性。
排序理由 该集群描述了一篇介绍AI研究新基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →