HRM-Text: Efficient Pretraining Beyond Scaling
Signal
78
Hype
35
En 3 lignesHRM-Text remplace les Transformers standard par un modèle récurrent hiérarchique (HRM) découplant calcul stratégique lent et exécution rapide. Un modèle 1B entraîné sur 40B tokens et $1,500 atteint 60.7% MMLU, 81.9% ARC-C, 82.2% DROP, 84.5% GSM8K, 56.2% MATH — 100-900x moins de tokens et 96-432x moins de calcul que les baselines.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain