Reddit r/MachineLearning·21 mai 2026

Masked Diffusion Language Models are Strong and Steerable Text-Based World Models for Agentic RL [R]

Signal

Hype

En 3 lignesLes modèles de diffusion masqués (MDLMs) surpassent les LLMs autorégressifs comme modèles du monde pour l'RL agentic. Fine-tuning sur SDAR-8B et WeDLM-8B montre +4x sur BLEU-1/ROUGE-L/MAUVE. GRPO training atteint +15% de succès sur ScienceWorld, ALFWorld, AppWorld avec Qwen3, Mistral, LFM2.5 en zéro-shot.

Lire la source

Ton avis ?

Agents IA Reinforcement learning Raisonnement Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Masked Diffusion Language Models are Strong and Steerable Text-Based World Models for Agentic RL [R]

Autres angles sur ce sujet