arXiv cs.AI·20 mai 2026

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Signal

Hype

En 3 lignesLearn-by-Wire Guard (LBW-Guard) est une couche de gouvernance autonome qui supervise l'optimiseur AdamW pendant l'entraînement de modèles de langage. Testé sur Qwen2.5-7B avec WikiText-103, LBW-Guard réduit la perplexité finale de 13.21 à 10.74 (−18.7%) et accélère l'entraînement de 1.10×. Sous stress de learning-rate extrême (LR=3e-3), AdamW échoue (perplexité 1885.24) tandis que LBW-Guard reste stable (11.57).

Lire la source

Ton avis ?

Qwen Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

Autres angles sur ce sujet