arXiv cs.AI·2 juin 2026

Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs

Signal

Hype

En 3 lignesDes chercheurs montrent que les traces de raisonnement cachées des LLM peuvent être extraites via Reasoning Exposure Prompting (REP), une méthode de prompting légère utilisant des démonstrations générées par modèles fantômes. REP expose les traces internes même quand les systèmes déployés les masquent intentionnellement, préservant les signaux de raisonnement utiles pour la distillation.

Lire la source

Ton avis ?

Raisonnement Prompt engineering Fine-tuning Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs

Autres angles sur ce sujet