研究人员推出了 NormAct,这是一个旨在评估多模态大型语言模型(MLLMs)在具身规划任务中遵守隐藏社会规范能力的新基准。使用 GPT-5.4、Claude Opus 4.7 和 Gemini 3 Pro 进行的实验表明,虽然这些模型可以实现明确的目标,但它们在隐式社会遵从方面存在显著困难,成功率仅为 26.4%。为了解决这个问题,提出的 NormPerceptor 系统帮助模型推断和应用相关规范,将整体任务成功率从 24.2% 提高到 46.7%。 AI
影响 凸显了大型语言模型在具身智能体推理方面的一个关键差距,可能影响更安全、更具社会意识的 AI 系统的开发。
排序理由 该集群描述了一个新的学术基准和提出的评估大型语言模型行为的方法,已在 arXiv 上发布。
- arXiv
- Claude Opus 4.7
- Gemini 3 Pro
- GPT-5.4
- NormAct
- NormPerceptor
- alphaXiv
- CatalyzeX Code Finder for Papers
- Connected Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- Influence Flower
- Litmaps
- ScienceCast
- scite Smart Citations
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →