一项新的基准测试 AmBench 显示,大型语言模型在可靠识别姓名方面存在困难,而姓名是隐私保护工具的关键组成部分。研究人员发现,大型语言模型会错误处理模糊的姓名,与更易识别的姓名相比,召回率下降了 20-40%。这种不均衡的隐私保护引发了公平性担忧,尤其是在提示注入导致大型语言模型忽略姓名时,正如 Anthropic 的 Clio 工具中所见。 AI
影响 基于大型语言模型的隐私工具可能因姓名识别失败而提供不一致的保护,需要新的对策。
排序理由 该集群围绕一篇介绍基准测试以评估大型语言模型在特定任务(姓名识别)上性能的新学术论文。
- AI
- Anthropic
- Claude
- Clio
- Harvey
- Jack Newton
- Legora
- LLMs
- Winston Weinberg
- AmBench
- Large Language Models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →