New method uses natural identifiers for LLM privacy audits

By PulseAugur Editorial · [2 sources] · 2026-06-23 10:45

A new research paper introduces "natural identifiers" (NIDs) as a method to improve privacy and data auditing for large language models. Current methods for auditing differential privacy often require retraining models or access to specific held-out datasets, which are impractical for already-trained models. NIDs, which are structured random strings like cryptographic hashes and shortened URLs found in common training data, can be used to generate unlimited alternative canaries for audits and held-out data for dataset inference. This approach allows for post-hoc differential privacy auditing without retraining and enables dataset inference even without a private non-member held-out dataset. AI

IMPACT This research could enable more practical and scalable privacy audits for existing large language models, potentially increasing trust and adoption.

RANK_REASON The cluster contains an academic paper detailing a new research methodology for LLM privacy.

Read on arXiv cs.LG →

paper
safety

AI-generated summary · Google Gemini · from 2 sources. How we write summaries →

New method uses natural identifiers for LLM privacy audits

COVERAGE [2]

arXiv cs.LG TIER_1 English(EN) · Lorenzo Rossi, Bart{\l}omiej Marek, Franziska Boenisch, Adam Dziedzic · 2026-06-24 04:00

Natural Identifiers for Privacy and Data Audits in Large Language Models

arXiv:2606.24408v1 Announce Type: new Abstract: Assessing the privacy of large language models (LLMs) presents significant challenges. In particular, most existing methods for auditing differential privacy require the insertion of specially crafted canary data during training, ma…
arXiv cs.LG TIER_1 English(EN) · Adam Dziedzic · 2026-06-23 10:45

Natural Identifiers for Privacy and Data Audits in Large Language Models

Assessing the privacy of large language models (LLMs) presents significant challenges. In particular, most existing methods for auditing differential privacy require the insertion of specially crafted canary data during training, making them impractical for auditing already-train…

COVERAGE [2]

Natural Identifiers for Privacy and Data Audits in Large Language Models

Natural Identifiers for Privacy and Data Audits in Large Language Models

RELATED ENTITIES

RELATED TOPICS