PulseAugur
实时 12:59:52
实体 AmBench

AmBench

PulseAugur coverage of AmBench — every cluster mentioning AmBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-04-28 research_milestone Researchers introduce AmBench, a benchmark demonstrating LLMs' struggles with recognizing human names, impacting privacy. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_30939 ·

    大型语言模型无法可靠识别姓名,影响隐私工具

    一项新的基准测试 AmBench 显示,大型语言模型在可靠识别姓名方面存在困难,而姓名是隐私保护工具的关键组成部分。研究人员发现,大型语言模型会错误处理模糊的姓名,与更易识别的姓名相比,召回率下降了 20-40%。这种不均衡的隐私保护引发了公平性担忧,尤其是在提示注入导致大型语言模型忽略姓名时,正如 Anthropic 的 Clio 工具中所见。