Conformal Selective Acting: Anytime-Valid Risk Control for RLVR-Trained LLMs
CSA (Conformal Selective Acting) est un wrapper de déploiement pour LLMs fine-tunés en RLVR qui garantit un contrôle du risque par round sans pooling entre déploiements. Testé sur 480 streams spécialisés et 10,300 rounds en Expert-Iteration avec LoRA, CSA maintient une e-process de Ville par seuil et atteint une borne de risque sélectif R_T^act ≤ α+O(N_T^{-1/2}) avec validité pathwise anytime.