Retour au feed
arXiv cs.AI·

No Free Swap: Protocol-Dependent Layer Redundancy in Transformers

Signal
72
Hype
15
En 3 lignesÉtude montrant que deux protocoles d'évaluation de redondance dans les transformers (replacement et interchange) donnent des résultats divergents pour identifier les couches à élaguer. Sur Pythia, Qwen3-8B et Llama-3.1-8B, l'écart entre les protocoles change drastiquement les couches jugées sûres à supprimer, même avec le même évaluateur KL.
Lire la source
Ton avis ?
PapersBenchmarksRaisonnement

Résumé généré par Claude — vérifié par l'humain