Retour au feed
arXiv cs.LG·

Conformal Selective Acting: Anytime-Valid Risk Control for RLVR-Trained LLMs

Signal
78
Hype
15
En 3 lignesCSA (Conformal Selective Acting) est un wrapper de déploiement pour LLMs fine-tunés en RLVR qui garantit un contrôle du risque par round sans pooling entre déploiements. Testé sur 480 streams spécialisés et 10,300 rounds en Expert-Iteration avec LoRA, CSA maintient une e-process de Ville par seuil et atteint une borne de risque sélectif R_T^act ≤ α+O(N_T^{-1/2}) avec validité pathwise anytime.
Lire la source
Ton avis ?
Reinforcement learningSécurité IAÉvaluationsRégulation

Résumé généré par Claude — vérifié par l'humain