PulseAugur
实时 15:02:21
实体 R score

R score

PulseAugur coverage of R score — every cluster mentioning R score across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_97857 ·

    新的RedactionBench基准揭示LLM在上下文PII redaction方面存在困难

    研究人员推出了RedactionBench,这是一个新的基准测试,旨在评估大型语言模型在考虑上下文隐私的同时,能够多好地redact个人身份信息(PII)。该基准包含200份多样化的文档和一个新颖的R-Score指标,该指标考虑了redaction中的语义相似性。评估显示,包括具有agentic工具的前沿模型在内的当前模型在上下文redaction方面存在困难,人类标注者在何构成上下文redaction方面也存在显著分歧。