Retour au feed
arXiv cs.CL·

Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning

Signal
72
Hype
28
En 3 lignesThoughts-as-Planning formalise l'optimisation des chaînes de raisonnement comme un processus de décision séquentielle sur un espace sémantique latent. Le framework apprend un modèle du monde latent simulant l'effet des édits de chaînes de raisonnement sur les sorties, supportant édits multi-échelle (token, segment, instruction) via planification par descente de gradient ou RL.
Lire la source
Ton avis ?
RaisonnementReinforcement learningPrompt engineeringPapers

Résumé généré par Claude — vérifié par l'humain