arXiv cs.CL·29 mai 2026

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning

Signal

Hype

En 3 lignesThoughts-as-Planning formalise l'optimisation des chaînes de raisonnement comme un processus de décision séquentielle sur un espace sémantique latent. Le framework apprend un modèle du monde latent simulant l'effet des édits de chaînes de raisonnement sur les sorties, supportant édits multi-échelle (token, segment, instruction) via planification par descente de gradient ou RL.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Prompt engineering Papers

Résumé généré par Claude — vérifié par l'humain

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning

Autres angles sur ce sujet