arXiv cs.LG·21 mai 2026

Conformal Selective Acting: Anytime-Valid Risk Control for RLVR-Trained LLMs

Signal

Hype

En 3 lignesCSA (Conformal Selective Acting) est un wrapper de déploiement pour LLMs fine-tunés en RLVR qui garantit un contrôle du risque par round sans pooling entre déploiements. Testé sur 480 streams spécialisés et 10,300 rounds en Expert-Iteration avec LoRA, CSA maintient une e-process de Ville par seuil et atteint une borne de risque sélectif R_T^act ≤ α+O(N_T^{-1/2}) avec validité pathwise anytime.

Lire la source

Ton avis ?

Reinforcement learning Sécurité IA Évaluations Régulation

Résumé généré par Claude — vérifié par l'humain

Conformal Selective Acting: Anytime-Valid Risk Control for RLVR-Trained LLMs

Autres angles sur ce sujet