实体 Sahasra Kondapalli

Sahasra Kondapalli

PulseAugur coverage of Sahasra Kondapalli — every cluster mentioning Sahasra Kondapalli across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_96086 · Jun 16 · 02:32

新的LAD-bench基准揭示了视觉语言模型中存在的逻辑推理缺陷

研究人员推出了LAD-bench，这是一个旨在评估大型视觉语言模型（VLM）逻辑推理能力的新基准。该基准包含1000多张合成图像，涵盖住宅、城市、协作和自然领域，其中存在逻辑异常。还提出了一个分层提示协议，以评估模型在识别这些故障时所需的辅助程度。对领先的基础模型的评估显示出明显的弱点，表现最好的模型准确率仅为70.11%，表明隐式逻辑故障检测仍然是一个未解决的挑战。

新的LAD-bench基准揭示了视觉语言模型中存在的逻辑推理缺陷