实体 R score

R score

PulseAugur coverage of R score — every cluster mentioning R score across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_97857 · Jun 17 · 07:51

新的RedactionBench基准揭示LLM在上下文PII redaction方面存在困难

研究人员推出了RedactionBench，这是一个新的基准测试，旨在评估大型语言模型在考虑上下文隐私的同时，能够多好地redact个人身份信息（PII）。该基准包含200份多样化的文档和一个新颖的R-Score指标，该指标考虑了redaction中的语义相似性。评估显示，包括具有agentic工具的前沿模型在内的当前模型在上下文redaction方面存在困难，人类标注者在何构成上下文redaction方面也存在显著分歧。