How Faithful Is Trajectory-Based Data Attribution? Error Sources, Remedies, and Practical Guidelines
Analyse systématique des erreurs dans les méthodes d'attribution de données basées sur trajectoires. Identifie l'incompatibilité optimiseur (SGD vs AdamW) comme erreur dominante. Propose AdamW-influence avec améliorations de 10-300% en corrélation Spearman sur MLP, CNN, GPT-2, Llama 3.2-1B. Fournit directives pratiques pour sélection de données via framework K-step look-ahead.