Retour au feed
arXiv cs.AI·

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Signal
72
Hype
25
En 3 lignesLearn-by-Wire Guard (LBW-Guard) est une couche de gouvernance autonome qui supervise l'optimiseur AdamW pendant l'entraînement de modèles de langage. Testé sur Qwen2.5-7B avec WikiText-103, LBW-Guard réduit la perplexité finale de 13.21 à 10.74 (−18.7%) et accélère l'entraînement de 1.10×. Sous stress de learning-rate extrême (LR=3e-3), AdamW échoue (perplexité 1885.24) tandis que LBW-Guard reste stable (11.57).
Lire la source
Ton avis ?
QwenReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain