一个名为EVADE-Bench的新基准已被开发出来,用于评估大型语言模型(LLM)和视觉语言模型(VLM)检测电子商务中规避性内容的能力。该基准包含专家精心策划的中文多模态数据,揭示了即使是最先进的模型在检测故意混淆的产品信息方面也存在困难。研究还表明,更清晰的规则分类可以提高模型的准确性,而分离视觉描述和逻辑推理的多代理方法可以提高准确性。 AI
影响 强调了提高AI在检测电子商务中复杂政策违规行为方面的鲁棒性的必要性。
排序理由 该集群描述了一个新的学术基准和评估AI模型的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →