Topic

#Reinforcement learning

L'apprentissage par renforcement est une méthode où un agent apprend en recevant des récompenses ou des pénalités selon ses actions. AlphaGo de DeepMind l'a utilisé pour battre les meilleurs joueurs mondiaux de Go.

40Articles
6Sources
74Signal moyen
arXiv cs.AI·

EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning

EvoTrainer co-évolue les politiques LLM et les harnesses d'entraînement via feedback empirique pour l'RL agentic autonome. Testé sur raisonnement mathématique, génération de code compétitif et ingénierie logicielle, le système égale ou surpasse les références RL conçues manuellement, avec gains majeurs sur les tâches SWE longue horizon.

Agents IAReinforcement learningGénération de code
SIG
78
HYP
00
arXiv cs.CL·

Hint-Guided Diversified Policy Optimization for LLM Reasoning

HDPO (Hint-Guided Diversified Policy Optimization) améliore le raisonnement des LLM via renforcement avec récompenses vérifiables. La méthode incite le modèle à générer d'abord plusieurs approches candidates (hints), puis sélectionner la plus fiable. Deux étapes : Cold Start pour structurer le raisonnement, puis RL guidé par hints pour diversifier et fiabiliser les solutions.

RaisonnementReinforcement learningPapers
SIG
72
HYP
00
arXiv cs.CL·

Predicting Inference-Time Scaling Gains from Labeled Validation-Set Output Statistics

Méthode pour prédire les gains de scaling en inférence (best-of-N) sans exécuter la procédure complète. Ridge predictor identifie 3 features stables (accord inter-prompts, position du premier échantillon correct, variance de longueur) + entropie, atteignant ρ=0.90 de corrélation avec les gains réels sur familles de modèles et tâches math/reasoning.

RaisonnementÉvaluationsReinforcement learning
SIG
78
HYP
00
arXiv cs.LG·

Balancing Learning Rates Across Layers: Exact Two-Step Dynamics and Optimal Scaling in Linear Neural Networks

Étude théorique des taux d'apprentissage optimaux dans les réseaux de neurones linéaires à 2-3 couches. Dérivation de formules fermées exactes pour les gradients et la perte après 1-2 étapes de descente de gradient. Résultat clé : les taux d'apprentissage inégaux minimisent la perte en phase initiale, tandis que les taux égaux deviennent optimaux après. Code disponible.

PapersReinforcement learning
SIG
75
HYP
00
arXiv cs.LG·

Large-scale Uncertainty Quantification for Latent Variable Models Using Subsampling Markov Chain Monte Carlo

Théorie asymptotique pour SGLD-Gibbs, combinant dynamique de Langevin stochastique et mises à jour Gibbs pour l'inférence bayésienne dans les modèles à variables latentes. Les auteurs dérivent des limites de diffusion-saut et proposent un guide de tuning d'hyperparamètres garantissant une quantification d'incertitude statistiquement valide.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
00
arXiv cs.LG·

Agentic Transformers Provably Learn to Search via Reinforcement Learning

Étude théorique montrant comment les transformers apprennent à implémenter une recherche en arbre (DFS) via RL. Un transformer à deux têtes d'attention émerge naturellement d'un entraînement par gradient de politique sur des arbres stochastiques, sans démonstrations expertes. Le modèle généralise à des profondeurs non vues et adapte sa stratégie selon les distributions d'objectifs.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
00
arXiv cs.LG·

Accurate Large-sample Uncertainty Quantification using Stochastic Gradient Markov Chain Monte Carlo

Nouvel article arXiv proposant des approximations discrètes pour SG(L)D avec et sans momentum, permettant des prédictions précises de la covariance stationnaire et du temps d'autocorrélation intégré. Bornes d'erreur non-asymptotiques pour l'ajustement pratique et la quantification d'incertitude, validées sur modèles mal spécifiés et grands batch sizes.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
00
arXiv cs.CL·

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

CSRP, un framework en trois étapes pour la correction d'erreurs grammaticales chinoises, combine pré-entraînement continu (5.9M échantillons), fine-tuning avec Chain-of-Thought, et optimisation de politique avec récompenses conscientes de l'efficacité. Atteint 50.99 F₀.₅ sur NACGEC et surpasse GPT-4 en correction orthographique (59.61 F1).

Reinforcement learningRaisonnementFine-tuning
SIG
82
HYP
00
arXiv cs.CL·

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Nouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).

Reinforcement learningAlignementÉvaluations
SIG
72
HYP
00
arXiv cs.CL·

Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning

SelSkill, un framework d'apprentissage par préférence dual-granularité, optimise l'invocation sélective de compétences dans les tâches agentic. Sur ALFWorld avec Qwen3-8B : +10,9 pp de succès, +29,1 pp de précision. Sur BFCL : +5,7 pp de succès, +29,5 pp de précision. Transfère à zéro-shot sur Tau-bench et PopQA.

Agents IAReinforcement learningRaisonnement
SIG
72
HYP
00
arXiv cs.CL·

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

SPADER est un framework RL pour agents LLM augmentés d'outils en Multi-Answer QA. Il introduit Step-wise Peer Advantage (SPA) pour l'attribution de crédit fine-grained sur trajectoires longues, et une récompense d'exploration sensible à la diversité favorisant la découverte d'entités rares. Évalué sur QAMPARI, Mintaka, WebQSP, QUEST : amélioration du recall et F1 vs prompting et RL supervisé.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
00
arXiv cs.AI·

Closed-Loop Neural Activation Control in Vision-Language-Action Models

CTRL-STEER propose un cadre de contrôle en boucle fermée pour les modèles Vision-Language-Action (VLA). Au lieu d'utiliser un coefficient de direction fixe, la méthode adapte dynamiquement la force d'intervention via des contrôleurs PID ou par apprentissage par renforcement. Tests sur OpenVLA et LIBERO montrent une meilleure stabilité et un meilleur compromis entre direction et succès de tâche.

VisionAgents IAReinforcement learning
SIG
72
HYP
00
arXiv cs.AI·

SDR: Set-Distance Rewards for Radiology Report Generation

Nouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.

Reinforcement learningVisionGénération de code
SIG
78
HYP
00
arXiv cs.LG·

RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting

RAFT est une méthode de fine-tuning domaine en deux étapes qui réduit l'oubli catastrophique. Elle raffine les données via réécriture auto-conditionnée et fusion de réponses, puis applique une distillation on-policy où le modèle original fournit des cibles souples sur les trajectoires générées. Sur 5 domaines, RAFT améliore la précision domaine de 23,2% vs SFT standard et récupère 18,2% de dégradation sur MS-Bench.

Fine-tuningReinforcement learningPapers
SIG
78
HYP
00
arXiv cs.LG·

AI-Guided Design and Optimization of Graphite-Based Anodes via Iterative Experimental Feedback

Workflow IA itératif pour optimiser les anodes en graphite via apprentissage séquentiel et retours expérimentaux. Plateforme Citrine utilisée pour générer modèles de substitution et affiner contraintes de faisabilité. Résultats : fiabilité de fabrication passée de défaillances fréquentes à 100%, capacité ≥350 mAh/g augmentée de 28,4% à 84,8%, rétention de capacité de 42,1% à 97,3%.

Reinforcement learningBenchmarksOutils
SIG
75
HYP
00
arXiv cs.LG·

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate

ARCA propose une nouvelle méthode d'attribution de crédit au niveau des tokens pour l'apprentissage par renforcement des LLM. Elle résout la dégénérescence des signaux intrinsèques (surprisal, entropy reduction, policy divergence) sous LoRA en mesurant directement les changements cachés de l'adaptateur via la norme L2 du résidu. Testée sur MATH/Qwen3-1.7B avec GRPO, ARCA évite la concentration pathologique des poids.

Reinforcement learningFine-tuningRaisonnement
SIG
75
HYP
00
arXiv cs.AI·

CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

CAST est une méthode d'auto-distillation sans réponse de référence pour GRPO (Group Relative Policy Optimization). Elle utilise un auto-enseignant sans gradient pour façonner les avantages au niveau des tokens selon la correction des trajectoires, avec inversion bidirectionnelle des signaux et avantages bornés pour les groupes à variance zéro. Améliore le raisonnement mathématique.

Reinforcement learningRaisonnementGénération de code
SIG
72
HYP
00
arXiv cs.AI·

MindZero: Learning Online Mental Reasoning With Zero Annotations

MindZero est un framework d'apprentissage par renforcement auto-supervisé qui entraîne des modèles multimodaux (MLLMs) à inférer les états mentaux humains sans annotations. Le modèle est récompensé pour générer des hypothèses d'états mentaux maximisant la vraisemblance des actions observées. Après entraînement, l'inférence devient rapide et surpasse les méthodes basées sur des planificateurs.

RaisonnementReinforcement learningAgents IA
SIG
72
HYP
00
arXiv cs.AI·

Capability Self-Assessment: Teaching LLMs to Know Their Limits

Les LLM modernes surestiment systématiquement leurs capacités et tentent de résoudre des requêtes impossibles. Des chercheurs proposent Capability Self-Assessment (CSA), formalisé comme un problème d'apprentissage par renforcement, pour enseigner aux modèles à reconnaître leurs limites. L'RL surpasse le fine-tuning supervisé, préserve les capacités originales et généralise hors-distribution.

Reinforcement learningAlignementÉvaluations
SIG
78
HYP
00
arXiv cs.AI·

From Noise to Control: Parameterized Diffusion Policies

Parameterized Diffusion Policy (PDP) conditionne les politiques de diffusion sur des paramètres continus dans une variété de comportements apprise. Cette approche permet l'interpolation fluide entre stratégies et l'adaptation efficace à de nouvelles contraintes sans mise à jour des poids. Résultats améliorés sur benchmarks multimodaux en simulation et robots réels.

RobotiqueReinforcement learningPapers
SIG
72
HYP
00
arXiv cs.LG·

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Étude de l'efficacité et l'efficience du tool-calling dans les agents LLM. Les auteurs montrent que les pipelines d'évaluation sont sensibles à des choix mineurs (seed, prompt système, templates multi-tours) affectant la fiabilité des classements. Ils identifient deux sources de gaspillage computationnel en RL et proposent deux techniques d'accélération sans dégradation de performance.

Agents IAReinforcement learningÉvaluations
SIG
78
HYP
00
arXiv cs.AI·

From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging

Preference Delta Aggregation (PDA) agrège des signaux de préférence faibles issus de paires de modèles (ex: Qwen3 4B vs 1.7B) via fusion de LoRA. Geometric Alignment Merging (GAM) aligne les sous-espaces d'adaptateurs avant agrégation. Sur benchmarks de raisonnement et recherche agentique, PDA+GAM améliore Qwen3 8B de +6,8 et +7,3 points respectivement.

QwenFine-tuningReinforcement learning
SIG
78
HYP
00
arXiv cs.AI·

Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight

Méthode OPCD pour améliorer les grands modèles via critiques faibles. Au lieu d'utiliser des superviseurs faibles comme annotateurs, on les emploie comme critiques pour guider les révisions. La distillation progressive filtre les critiques de qualité et les intègre au modèle fort via signaux d'auto-enseignement adaptatifs. Résultats sur benchmarks de raisonnement et alignement.

RaisonnementAlignementReinforcement learning
SIG
72
HYP
00
Reddit r/LocalLLaMA·

I spent months inside verl (an RL post-training framework), forked it, then stopped. Wrote up the internals, the tooling a fork costs, and a nasty NCCL bug.

Un chercheur ayant travaillé plusieurs mois sur verl (framework RL post-training de ByteDance) détaille ses internals : orchestration des boucles RLHF, pattern single-controller, structures de données (DataProto), et un bug NCCL découvert. Fork abandonné mais expérience documentée pour la communauté.

Reinforcement learningAgents IAOpen source
SIG
65
HYP
00
Reddit r/MachineLearning·

Finetuning a Reasoning LLM with Supervised or Reinforcement Learning? [D]

Discussion sur le fine-tuning de petits LLMs avec données conversationnelles annotées incluant traces de raisonnement et décisions d'appel d'outils. L'auteur propose de structurer les données en samples avec historique complet et masquage de la loss sur tokens non-assistant. Demande si SFT suffit ou si RL (PPO, GRPO, DPO) est nécessaire pour optimiser l'utilisation d'outils.

Fine-tuningRaisonnementReinforcement learning
SIG
35
HYP
00
Reinforcement learning — actualité IA · Signal IA