arXiv cs.CL·27 mai 2026

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Signal

Hype

En 3 lignesEnquête unifiée sur l'exposition des données d'entraînement (PDE) dans les LLM, couvrant l'inférence d'appartenance et la contamination de données. Formalise PDE selon les niveaux d'exposition, examine les méthodes d'attaque/défense et identifie les défis ouverts pour l'intégrité des évaluations et la protection de la vie privée.

Lire la source

Ton avis ?

Sécurité IA Alignement Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Autres angles sur ce sujet