PulseAugur
实时 20:33:35
实体 EVADE-Bench

EVADE-Bench

PulseAugur coverage of EVADE-Bench — every cluster mentioning EVADE-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56255 ·

    新的EVADE-Bench基准凸显了LLM在处理规避性电子商务内容方面的挣扎

    一个名为EVADE-Bench的新基准已被开发出来,用于评估大型语言模型(LLM)和视觉语言模型(VLM)检测电子商务中规避性内容的能力。该基准包含专家精心策划的中文多模态数据,揭示了即使是最先进的模型在检测故意混淆的产品信息方面也存在困难。研究还表明,更清晰的规则分类可以提高模型的准确性,而分离视觉描述和逻辑推理的多代理方法可以提高准确性。