研究人员推出 FraudSMSWalker,这是一个新的基准,旨在评估代理式大语言模型在检测将用户引导至恶意网页的短信欺诈方面的能力。该基准会隐藏 URL 和其他信誉快捷方式,迫使模型仅依靠短信内容和经过净化的网页证据来做出欺诈判断。初步评估显示,尽管当前的代理模型可以识别一些可疑线索,但它们在保持良性案例的准确性方面存在困难,并且经常基于薄弱的证据做出预测。 AI
影响 该基准旨在通过移除信誉快捷方式,提高大语言模型代理检测复杂跨渠道欺诈的能力。
排序理由 该集群描述了一篇介绍用于评估大语言模型在特定任务上表现的基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →