Block-Based Double Decoders
Signal
78
Hype
15
En 3 lignesNouvelle architecture transformer « block-based double decoders » combinant l'efficacité d'entraînement des modèles decoder-only avec les gains d'inférence des encoder-decoder. Réduit la mémoire KV-cache et le calcul par token d'au moins 2/3 à l'inférence, tout en maintenant la supervision complète et l'empaquetage statique pendant l'entraînement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain