Reasoning Can Be Restored by Correcting a Few Decision Tokens
Signal
78
Hype
15
En 3 lignesLes modèles de raisonnement surpassent les LLM de base sur les benchmarks complexes. Une étude révèle que l'avantage provient d'un petit ensemble de tokens décisionnels précoces (~8% sur Qwen3-0.6B), concentrés en phase de planification. Une intervention sélective du modèle de raisonnement sur ces tokens critiques restaure les performances sans surcoût computationnel majeur.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain