Retour au feed
Reddit r/MachineLearning·

Masked Diffusion Language Models are Strong and Steerable Text-Based World Models for Agentic RL [R]

Signal
78
Hype
25
En 3 lignesLes modèles de diffusion masqués (MDLMs) surpassent les LLMs autorégressifs comme modèles du monde pour l'RL agentic. Fine-tuning sur SDAR-8B et WeDLM-8B montre +4x sur BLEU-1/ROUGE-L/MAUVE. GRPO training atteint +15% de succès sur ScienceWorld, ALFWorld, AppWorld avec Qwen3, Mistral, LFM2.5 en zéro-shot.
Lire la source
Ton avis ?
Agents IAReinforcement learningRaisonnementBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain