Test-Time Training Undermines Safety Guardrails
Signal
78
Hype
35
En 3 lignesUne étude arXiv révèle que l'entraînement au moment du test (TTT) crée des vulnérabilités de sécurité. Les chercheurs identifient trois modèles de menace permettant de contourner les filtres de sécurité : avec LoRA, les taux de succès d'attaque atteignent 95% et 93% respectivement. Les vulnérabilités se transfèrent aux APIs de fine-tuning en production.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain