NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models
Signal
75
Hype
25
En 3 lignesNumLeak mesure la mémorisation de benchmarks publics dans les LLM frontier. Les modèles rappellent les données Fama-French (r=0.97-0.99), chômage US et température NOAA avec haute fidélité. Sur données récentes non vues, le taux de parsing chute à 21-57% mais r reste ~0.99 pour les mois répondus. Une défense prompt-système bloque 99.8% des attaques.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain