PulseAugur
实时 08:36:45
实体 Sahasra Kondapalli

Sahasra Kondapalli

PulseAugur coverage of Sahasra Kondapalli — every cluster mentioning Sahasra Kondapalli across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_96086 ·

    新的LAD-bench基准揭示了视觉语言模型中存在的逻辑推理缺陷

    研究人员推出了LAD-bench,这是一个旨在评估大型视觉语言模型(VLM)逻辑推理能力的新基准。该基准包含1000多张合成图像,涵盖住宅、城市、协作和自然领域,其中存在逻辑异常。还提出了一个分层提示协议,以评估模型在识别这些故障时所需的辅助程度。对领先的基础模型的评估显示出明显的弱点,表现最好的模型准确率仅为70.11%,表明隐式逻辑故障检测仍然是一个未解决的挑战。