Retour au feed
arXiv cs.LG·

Test-Time Training Undermines Safety Guardrails

Signal
78
Hype
35
En 3 lignesUne étude arXiv révèle que l'entraînement au moment du test (TTT) crée des vulnérabilités de sécurité. Les chercheurs identifient trois modèles de menace permettant de contourner les filtres de sécurité : avec LoRA, les taux de succès d'attaque atteignent 95% et 93% respectivement. Les vulnérabilités se transfèrent aux APIs de fine-tuning en production.
Lire la source
Ton avis ?
Sécurité IAAlignementFine-tuningPapers

Résumé généré par Claude — vérifié par l'humain