实体 MM-OCEAN

MM-OCEAN

PulseAugur coverage of MM-OCEAN — every cluster mentioning MM-OCEAN across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

时间线

2026-05-21 research_milestone Researchers released a new benchmark and dataset for evaluating personality reasoning in multimodal LLMs. 来源

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_45069 · May 21 · 00:00

多模态大语言模型在个性评估中存在偏见差距，新基准揭示

研究人员推出了一项名为 MM-OCEAN 的新基准和数据集，用于评估多模态大语言模型（MLLMs）在推理个性方面的能力。研究发现，超过 51% 的 MLLMs 在没有基于可观察行为证据的情况下，提供了正确的个性评估。这种“偏见差距”凸显了准确预测与真正理解之间的脱节，表明需要更稳健的方法来评估人工智能的社会认知能力。