PulseAugur
实时 12:52:25
English(EN) NormAct: A Benchmark for Hidden Social Norm Compliance in Embodied Planning

新基准揭示大型语言模型在规划中难以遵守隐藏的社会规范

研究人员推出了 NormAct,这是一个旨在评估多模态大型语言模型(MLLMs)在具身规划任务中遵守隐藏社会规范能力的新基准。使用 GPT-5.4Claude Opus 4.7Gemini 3 Pro 进行的实验表明,虽然这些模型可以实现明确的目标,但它们在隐式社会遵从方面存在显著困难,成功率仅为 26.4%。为了解决这个问题,提出的 NormPerceptor 系统帮助模型推断和应用相关规范,将整体任务成功率从 24.2% 提高到 46.7%。 AI

影响 凸显了大型语言模型在具身智能体推理方面的一个关键差距,可能影响更安全、更具社会意识的 AI 系统的开发。

排序理由 该集群描述了一个新的学术基准和提出的评估大型语言模型行为的方法,已在 arXiv 上发布。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新基准揭示大型语言模型在规划中难以遵守隐藏的社会规范

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Shiyun Zhao, Xinwei Song, Tianyu Guo, Xiaomeng Gao, Mingyuan Liu, Xu Han, Yuanyuan Zhang, Zhenliang Zhang, Xue Feng, Bo Dai ·

    NormAct: A Benchmark for Hidden Social Norm Compliance in Embodied Planning

    arXiv:2606.27826v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) are increasingly deployed as embodied planners in egocentric environments, where task success requires not only achieving instructed goals but also acting in socially appropriate ways. While …

  2. arXiv cs.AI TIER_1 English(EN) · Bo Dai ·

    NormAct:具身规划中隐藏的社会规范遵从基准测试

    Multimodal large language models (MLLMs) are increasingly deployed as embodied planners in egocentric environments, where task success requires not only achieving instructed goals but also acting in socially appropriate ways. While explicit goals may render certain actions optima…