Retour au feed
arXiv cs.LG·

Training-Inference Kernel Contracts: Bounding Divergence in Post-Training and Deployment

Signal
45
Hype
15
En 3 lignesArticle théorique proposant des « contrats de kernel » pour borner la divergence entre les kernels d'entraînement et d'inférence en post-training. Framework spécifiant les écarts acceptables en précision finie, avec clauses numériques, statistiques et de routage. Dérive des bornes de dérive logit à distance de variation totale et applique à l'RL.
Lire la source
Ton avis ?
Reinforcement learningPapersAlignement

Résumé généré par Claude — vérifié par l'humain