Topic

#Reinforcement learning

L'apprentissage par renforcement est une méthode où un agent apprend en recevant des récompenses ou des pénalités selon ses actions. AlphaGo de DeepMind l'a utilisé pour battre les meilleurs joueurs mondiaux de Go.

40Articles

5Sources

72Signal moyen

arXiv cs.CL·18 juin

Steerable Cultural Preference Optimization of Reward Models

Nouvelle méthode SCPO pour entraîner des reward models capables de représenter équitablement les préférences culturelles de différentes communautés. Gains de 7 points pour les modèles minoritaires sur PRISM et GlobalOpinionQA (7 pays), avec 280% d'efficacité accrue en données d'entraînement.

Alignement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

PROPEL est un framework qui entraîne des générateurs de tâches via RL pour créer des problèmes optimaux pour l'apprentissage d'agents. Une sonde légère prédit le taux de résolution sans rollouts répétés du solveur, réduisant l'évaluation à un forward pass. Sur code et SWE, les tâches au « learnable frontier » passent de 10,1% à 20% (Qwen2.5-3B) et de 9,8% à 19,6% (Qwen3.5-27B).

Reinforcement learning Agents IA Génération de code

SIG

HYP

arXiv cs.LG·18 juin

Self-CTRL: Self-Consistency Training with Reinforcement Learning

Self-CTRL optimise la cohérence entre les auto-explications et le comportement des modèles de langage via apprentissage par renforcement. Sur un task de raisonnement probabiliste, la méthode améliore la corrélation R² de 0.24 à 0.64. En IA constitutionnelle, elle augmente la prédiction des refus de 36% à 92% et réduit le taux d'échec HarmBench de 15.0% à 0.5%.

Reinforcement learning Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·18 juin

TMR-GGNN: Credit Card Fraud Detection based on Time-Aware Multi-Relational Guided Graph Neural Network

TMR-GGNN, un réseau de neurones graphiques multi-relationnel sensible au temps, détecte la fraude par carte bancaire en modélisant les interactions hétérogènes entre clients, commerçants, appareils et adresses IP. Le modèle combine attention relationnelle temporelle, apprentissage contrastif et une fonction de perte composite (InfoNCE + Focal Loss) pour gérer les données déséquilibrées et réduire les faux négatifs.

Reinforcement learning

SIG

HYP

arXiv cs.LG·18 juin

Structured Representation Learning with Locally Linear Embeddings and Adaptive Feature Fusion

Framework RL inspiré par les neurosciences qui sépare les features dynamiques et récompense via locally linear embeddings (LLE) et fusionne adaptivement les représentations par mécanisme d'attention. Améliore l'efficacité d'apprentissage sur benchmarks comparé aux approches RL conventionnelles.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Quantum Annealing Enhanced Reinforcement Learning for Accurate Remaining Useful Lifetime Prediction

Framework QAQL combinant quantum annealing et Q-learning pour prédire la durée de vie utile restante (RUL) en maintenance prédictive. Chaque mise à jour Q-value est encodée en QUBO résolu sur D-Wave Advantage. Validé sur NASA C-MAPSS et datasets de maintenance : amélioration statistiquement significative vs baselines classiques et quantiques.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.AI·18 juin

Optimizing Lithium Production Decisions under Geological, Demand, and Pricing Uncertainties: A POMDP Framework for Multi-Objective Decision Making

Un cadre POMDP optimise les décisions de production de lithium en intégrant incertitudes géologiques, de prix et de demande. Les solveurs POMDP surpassent les heuristiques humaines en s'adaptant dynamiquement aux régimes de prix (statique, linéaire, exponentiel, stochastique) et en séquençant optimalement exploration, production et choix technologique.

Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·18 juin

Generative-Model Predictive Planning for Navigation in Partially Observable Environments

BeliefDiffusion combine diffusion models et Model Predictive Control pour la navigation en environnements partiellement observables. Le framework génère des distributions de croyance multimodales et planifie des stratégies de navigation efficaces. Expériences sur cartes synthétiques : surpasse RL et autres approches génératives en taux de succès et efficacité de trajectoire.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

ThinkDeception propose un cadre d'apprentissage par renforcement progressif pour la détection de tromperie multimodale interprétable. Utilisant des MLLMs, il transforme la classification binaire en processus de raisonnement explicite via Chain of Thought. VAC-GRPO avec curriculum learning stratifié en 4 niveaux de difficulté atteint SOTA sur les benchmarks.

Raisonnement Reinforcement learning Vision

SIG

HYP

arXiv cs.AI·18 juin

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Safety Reflection Pretraining intègre des réflexions de sécurité courtes dans les corpus de préentraînement pour établir l'auto-surveillance directement dans la modélisation du langage. Sur des modèles 1.7B préentraînés sur FineWeb-Edu, la méthode améliore la précision de classification de sécurité et réduit substantiellement les taux de succès des attaques en inférence et fine-tuning.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.AI·18 juin

NeSyCat Torch: A Differentiable Tensor Implementation of Categorical Semantics for Neurosymbolic Learning

NeSyCat Torch unifie les sémantiques neurosymboliques (classique, floue, probabiliste, neurale) sous une définition unique de la vérité paramétrée par des monades. Implémenté en PyTorch, JAX et HaskTorch, le framework interprète les symboles computationnels via réseaux de neurones. Sur MNIST addition, surpasse LTN et DeepProbLog en vitesse/précision.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·18 juin

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

PragReST est un framework auto-supervisé qui améliore le raisonnement pragmatique des LLM via des traces de raisonnement contrefactuel. Sans données annotées humaines, il combine fine-tuning supervisé et apprentissage par renforcement. Sur 4 benchmarks (PragMega, Ludwig, MetoQA, AltPrag), il gagne +5.37% et +5.50% en absolu pour Qwen3-8B et Qwen3-14B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.CL·18 juin

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

Étude arXiv sur l'amélioration du raisonnement long-contexte via une approche data-centric plutôt que l'ingénierie des récompenses. Recette de données ciblant retrieval, synthèse multi-preuves et raisonnement (~14K exemples). Tests sur Qwen3 (4B/8B/30B) : +7.2/+3.2/+6.4 points sur 7 benchmarks long-contexte, transfert aux tâches agentic (+4.8 GAIA, +7.0 BrowseComp).

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.LG·18 juin

A Link between Shock-wave Theory and Symmetry-reduced Stochastic Gradient Descent for Artificial Neural Networks

Lien mathématique établi entre la théorie des ondes de choc et la dynamique de descente de gradient stochastique symétrique pour réseaux de neurones. Après quotient des symétries et coarse-graining entropique, la dynamique effective satisfait une équation Hamilton-Jacobi visqueuse. Appliqué à MLPs, CNNs, Transformers et réseaux mean-field.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·18 juin

DRIFT: Refining Instruction Data via On-Policy Data Attribution

DRIFT affine la distribution des données d'entraînement SFT via des fonctions d'influence on-policy. La méthode utilise les rollouts du modèle comme cibles de validation pour minimiser l'écart de proximité et corriger le biais de norme de gradient. Tests sur modèles 7B montrent une amélioration du plafond de performance vs baselines.

Fine-tuning Reinforcement learning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

LLMZero utilise des agents LLM avec recherche arborescente pour découvrir des stratégies d'entraînement RL adaptatif. Le système identifie que les paramètres de capacité augmentent monotoniquement tandis que les paramètres de régularisation oscillent. Sur 4 tâches GRPO, les stratégies découvertes surpassent le modèle de base de 9-140% et la recherche en grille de 6-15%.

Reinforcement learning Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

L'étude montre que l'overtraining en SFT peut inverser le classement des modèles lors du fine-tuning RLVR. Sur Qwen2.5-Coder-3B, l'augmentation de la profondeur SFT élève pass@1 pré-RL mais réduit pass@10 GRPO de 0.806 à 0.481. L'entropie pré-RL corrèle positivement avec les résultats RLVR (ρ=+0.69). Un diagnostic deux étapes basé sur l'entropie peut identifier les checkpoints à risque.

Reinforcement learning Fine-tuning Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

R2D-RL: A RoboCup 2D Soccer Environment for Multi-Agent Reinforcement Learning

R2D-RL connecte le simulateur RoboCup 2D Soccer (RCSS2D) à des workflows Python d'apprentissage par renforcement multi-agent via mémoire partagée. L'environnement supporte l'entraînement full-field et par scénarios, avec espaces d'action discrets/hybrides, masquage d'actions, reward shaping basé sur EPV, et exécution parallèle. Benchmarks 11-vs-11 et résultats de base fournis.

Multi-agents Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

Skill-Guided Continuation Distillation for GUI Agents

SGCD, un framework d'auto-amélioration itérative, résout le problème des états hors-trajectoire en GUI agents. Le système exécute d'abord une politique simple, puis utilise une politique guidée par des skills pour générer des continuations réussies. Sur OSWorld-Verified, SGCD améliore le taux de succès de trois modèles de base de 30% à plus de 50%.

Agents IA Reinforcement learning Papers

SIG

HYP

Reddit r/LocalLLaMA·17 juin

i post-trained a model to reliably roll a die

Un utilisateur a post-entraîné un modèle pour simuler correctement un lancer de dé (chaque face ~1/6), révélant que les LLM frontière (Claude, GPT, Kimi) répondent systématiquement « 4 ». Il utilise ce problème jouet pour explorer l'exploration en RL versus l'exploitation de stratégies connues.

Reinforcement learning Claude GPT

SIG

HYP

Reddit r/LocalLLaMA·17 juin

SIQ-1 Qwen3.6 for autoresearch and autonomous agency

SIQ-1 Qwen3.6 : fine-tuning PPO du Qwen-35B-A3 surpassant GLM-5.2 et Qwen-350B sur autoresearch (karpathy benchmark) et bullshit-bench. Modèle + GGUF disponibles sur HuggingFace avec agent démo.

Qwen Reinforcement learning Agents IA

SIG

HYP

Reddit r/MachineLearning·17 juin

Next-Latent Prediction Transformers [R]

Microsoft Research propose Next-Latent Prediction (NextLat), une méthode d'apprentissage auto-supervisé où les transformers prédisent leur propre état latent suivant. Cela améliore la compression de l'historique, l'efficacité des données et accélère l'inférence jusqu'à 3.3x via décodage spéculatif récursif.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·17 juin

Rethinking Groups in Critic-Free RLVR

Article arXiv sur l'apprentissage par renforcement sans critique pour les LLM. Les auteurs remettent en question le rôle des « groupes » de rollouts dans les méthodes existantes et proposent le « negative token filtering » pour permettre un entraînement stable avec un seul rollout, améliorant les performances sur les tâches d'agents.

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.CL·17 juin

OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

OPD-Evolver est un framework de co-évolution lent-rapide qui cultive des agents auto-évolutifs via auto-distillation on-policy. Le système gère une hiérarchie mémoire à quatre niveaux pour lire, utiliser, écrire et maintenir l'expérience. Sur benchmarks multi-domaines, OPD-Evolver surpasse ReasoningBank (+11.5%) et Skill0 (+5.8%), avec OPD-Evolver-9B rivalisant avec Qwen3.5-397B et Step-3.5-Flash.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.CL·17 juin

From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

Framework LLM-as-Environment-Engineer : le modèle de politique analyse ses trajectoires d'échec et propose des modifications à la configuration d'entraînement RL pour l'étape suivante. Testbed MAPF-FrozenLake avec configurations multi-dimensionnelles. Qwen3-4B surpasse GPT et Gemini sur les benchmarks proposés.

Reinforcement learning Multi-agents Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Environment-Grounded Automated Prompt Optimization for LLM Game Agents

Framework automatisé d'optimisation de prompts pour agents LLM en environnements interactifs. Décompose le pipeline observation-action en deux agents (descripteur et sélection), affine itérativement via boucle évolutive guidée par les retours environnementaux. Sur BabyAI/BALROG : amélioration de 0% à 72,5% sur PutNext sans fine-tuning.

Agents IA Prompt engineering Reinforcement learning

SIG

HYP

arXiv cs.CL·17 juin

Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models

Les modèles de raisonnement entraînés par RL génèrent souvent du raisonnement inutile après avoir trouvé la bonne réponse (overthinking). Cet article propose Dynamic Rollout Editing (DRE), une intervention au moment de l'entraînement GRPO qui édite les trajectoires réussies continuant après l'émergence de la réponse, préservant le préfixe vérifié et affaiblissant le signal de préférence pour la pensée inutile.

Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.LG·17 juin

PowerOPD: Stabilizing On-Policy Distillation with Bounded Power Transformation

PowerOPD stabilise la distillation on-policy pour LLM en remplaçant la récompense log-ratio non-bornée par une transformation Box-Cox paramétrée. Sur 6 benchmarks de raisonnement mathématique avec Qwen3, gains de +6.37 Avg@8/+5.71 Pass@8 vs OPD vanilla, réduction de 59.2% du temps et 23.1% de mémoire GPU.

Fine-tuning Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

WallZero: Mastering the Game of WallGo with Strategic Analysis

WallZero, un agent basé sur AlphaZero, maîtrise WallGo, jeu de stratégie popularisé par la série Netflix The Devil's Plan (2025). Sur un plateau 7×7, l'agent bat des joueurs professionnels de Go avec 1.98x plus de territoire en moyenne. Les auteurs analysent l'équité du jeu et identifient les stratégies clés.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Memory-Efficient Meta-Reinforcement Learning for Adaptive Safety-Critical Control in Adversarial Spacecraft Proximity Operations

Étude comparative de trois architectures récurrentes (LSTM, GRU, Mamba) et deux algorithmes (PPO, SAC) pour l'apprentissage par renforcement méta appliqué aux fonctions de barrière de contrôle (ICCBF) en opérations de proximité spatiale. Mamba + PPO surpasse les autres configurations en sécurité, complétude des tâches et économies de carburant, même en présence de comportements adversariaux.

Reinforcement learning Sécurité IA Robotique

SIG

HYP

arXiv cs.LG·17 juin

Multi-Adapter PPO: A Cross-Attention Enhanced Wavelength Selection Framework for LIBS Quantitative Analysis

Framework Multi-Adapter PPO pour la sélection de longueurs d'onde en spectroscopie LIBS. Utilise RL avec mécanismes cross-attention et adaptateurs spécialisés. Surpasse PSO de 28,4% en score global et 45,2% en précision sur données acier/charbon. Code et dataset publiés.

Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Online LLM Selection via Constrained Bandits with Time-Varying Demand

Algorithme d'apprentissage en ligne pour sélectionner dynamiquement le meilleur LLM dans des systèmes edge-cloud sous contraintes de budget (coût, latence). Formulation en bandit stochastique contraint avec demande variable. Garanties théoriques : regret sublinéaire et violations de contraintes sublinéaires.

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

Treatment Response Optimized Clinical Decision Support AI System via Digital Twin Simulation

Système IA d'aide à la décision clinique utilisant des jumeaux numériques (Digital Twin), l'estimation des effets de traitement et l'apprentissage par renforcement pour recommander des traitements adaptatifs en temps réel. Validation sur données synthétiques et dataset ovarian cancer TCGA. Module de sécurité basé sur règles avec escalade clinicienne pour cas d'incertitude.

Reinforcement learning Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

Shattering the Autoregressive Curse: Dynamic Epistemic Entropy Orchestrated Erasable Reinforcement Learning for LLMs

E³RL, une méthode de reinforcement learning, résout le problème de propagation d'erreurs en raisonnement long-horizon des LLMs. En utilisant l'entropie croisée autoregressive comme signal d'incertitude épistémique, le modèle peut corriger localement les défauts logiques et réutiliser le cache KV. Sur AIME, les modèles 4B et 8B surpassent l'état de l'art de 5,3% et 6,5%.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Informative Missingness to Generate Irregular Clinical Time Series

Approche par diffusion pour générer des séries temporelles cliniques irrégulières en modélisant conjointement les valeurs de laboratoire et leurs motifs d'observation. Utilise le benchmark DACMI dérivé de MIMIC-III, étend TimeDiff pour capturer les dépendances entre physiologie et comportement de test clinique sous missingness MNAR.

Papers Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.LG·17 juin

Decision-Driven Geosteering Under Uncertainty: A Unified Framework for Sequential Decision Optimization

Framework d'optimisation séquentielle pour la géonavigation de puits pétroliers sous incertitude. Intègre filtrage particulaire pour l'interprétation probabiliste du sous-sol et apprentissage par renforcement basé sur la valeur. Compare trois approches décisionnelles : programmation dynamique approximée, Deep Q-learning et Double DRL avec décomposition duelle, validées sur simulateur industriel.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·17 juin

SkillChain-Gym: A Benchmark for Reskilling-Aware Production-Inventory Control under Disruptions

SkillChain-Gym est un benchmark pour la planification de production intégrant la gestion des compétences des travailleurs. L'environnement simule la dégradation des certifications, la formation et les contraintes de capacité. Évaluation de politiques de production, d'adaptation réactive et d'assurance statique sur 60 périodes avec métriques opérationnelles et de résilience.

Benchmarks Reinforcement learning Agents IA

SIG

HYP

arXiv cs.AI·17 juin

SEAGym: An Evaluation Environment for Self-Evolving LLM Agents

SEAGym est un environnement d'évaluation pour mesurer les mises à jour du harnais d'agents LLM auto-évolutifs (prompts, mémoire, outils, boucle interaction). L'étude compare ACE, TF-GRPO et AHE sur Terminal-Bench 2.0 et HLE, révélant que les mises à jour fréquentes ne garantissent pas l'amélioration en validation et que la diversité des données affecte la fiabilité.

Agents IA Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Using Cognitive Models to Improve Language Model Simulation of Human Persuasion Games

Les chercheurs proposent « Equation-to-Behavior Prompting » pour guider les LLM à simuler différents modèles cognitifs humains (Bayésien, motivated reasoning, modèle α-β de Grether). Les grands modèles approximent ces spécifications par prompting, mais les petits modèles échouent. L'entraînement par RL réduit l'erreur de croyance de 26,5% et améliore les performances de 2,5–12% sur des jeux de persuasion légaux.

Raisonnement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·17 juin

StepGuard: Guarding Web Navigation via Single-Step Calibration

StepGuard propose une méthode pour améliorer la navigation web par agents IA. Elle combine Dynamic Dual-Policy Optimization (DDPO) pour gérer les conflits de récompense et Confidence-Guided Adaptive Navigation Reflection (CANR) pour calibrer les erreurs à chaque étape. Le framework atteint des résultats SOTA sur les benchmarks de navigation web.

Agents IA Reinforcement learning Vision

SIG

HYP

Reinforcement learning — actualité IA · Signal IA