PulseAugur
实时 13:21:06
实体 MM-OCEAN

MM-OCEAN

PulseAugur coverage of MM-OCEAN — every cluster mentioning MM-OCEAN across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-21 research_milestone Researchers released a new benchmark and dataset for evaluating personality reasoning in multimodal LLMs. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_45069 ·

    多模态大语言模型在个性评估中存在偏见差距,新基准揭示

    研究人员推出了一项名为 MM-OCEAN 的新基准和数据集,用于评估多模态大语言模型(MLLMs)在推理个性方面的能力。研究发现,超过 51% 的 MLLMs 在没有基于可观察行为证据的情况下,提供了正确的个性评估。这种“偏见差距”凸显了准确预测与真正理解之间的脱节,表明需要更稳健的方法来评估人工智能的社会认知能力。