arXiv cs.CL·21 mai 2026

HRM-Text: Efficient Pretraining Beyond Scaling

Signal

Hype

En 3 lignesHRM-Text remplace les Transformers standard par un modèle récurrent hiérarchique (HRM) découplant calcul stratégique lent et exécution rapide. Un modèle 1B entraîné sur 40B tokens et $1,500 atteint 60.7% MMLU, 81.9% ARC-C, 82.2% DROP, 84.5% GSM8K, 56.2% MATH — 100-900x moins de tokens et 96-432x moins de calcul que les baselines.

Lire la source

Ton avis ?

Papers Benchmarks Raisonnement Infrastructure

Résumé généré par Claude — vérifié par l'humain

HRM-Text: Efficient Pretraining Beyond Scaling

Autres angles sur ce sujet