No Free Swap: Protocol-Dependent Layer Redundancy in Transformers
Signal
72
Hype
15
En 3 lignesÉtude montrant que deux protocoles d'évaluation de redondance dans les transformers (replacement et interchange) donnent des résultats divergents pour identifier les couches à élaguer. Sur Pythia, Qwen3-8B et Llama-3.1-8B, l'écart entre les protocoles change drastiquement les couches jugées sûres à supprimer, même avec le même évaluateur KL.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain