arXiv cs.LG·9 juin 2026

Training-Inference Kernel Contracts: Bounding Divergence in Post-Training and Deployment

Signal

Hype

En 3 lignesArticle théorique proposant des « contrats de kernel » pour borner la divergence entre les kernels d'entraînement et d'inférence en post-training. Framework spécifiant les écarts acceptables en précision finie, avec clauses numériques, statistiques et de routage. Dérive des bornes de dérive logit à distance de variation totale et applique à l'RL.

Lire la source

Ton avis ?

Reinforcement learning Papers Alignement

Résumé généré par Claude — vérifié par l'humain

Training-Inference Kernel Contracts: Bounding Divergence in Post-Training and Deployment

Autres angles sur ce sujet