PulseAugur
实时 11:43:49
实体 StateProbe

StateProbe

PulseAugur coverage of StateProbe — every cluster mentioning StateProbe across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_65376 ·

    新基准测试LLM创建交互式3D世界的能力

    研究人员推出了WorldCoder-Bench,这是一个旨在评估大型语言模型根据自然语言提示合成物理基础的3D交互世界的能力的新基准。该基准包含模拟、渲染和应用场景中的2000多个任务,并纳入了隐藏的行为契约来测试程序集成和状态管理。对九个前沿模型的初步评估显示,即使是最好的系统,验证覆盖率也低于30%,这凸显了在保持状态一致性和交互链方面存在的重大挑战。