实体 AmBench

AmBench

PulseAugur coverage of AmBench — every cluster mentioning AmBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

时间线

2026-04-28 research_milestone Researchers introduce AmBench, a benchmark demonstrating LLMs' struggles with recognizing human names, impacting privacy. 来源

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_30939 · Apr 28 · 04:00

大型语言模型无法可靠识别姓名，影响隐私工具

一项新的基准测试 AmBench 显示，大型语言模型在可靠识别姓名方面存在困难，而姓名是隐私保护工具的关键组成部分。研究人员发现，大型语言模型会错误处理模糊的姓名，与更易识别的姓名相比，召回率下降了 20-40%。这种不均衡的隐私保护引发了公平性担忧，尤其是在提示注入导致大型语言模型忽略姓名时，正如 Anthropic 的 Clio 工具中所见。