Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions
Signal
72
Hype
15
En 3 lignesÉtude comparative de trois approches LLM sur 1 000 problèmes mathématiques (GSM-Symbolic) : chain-of-thought (CoT), Program-Aided Language models (PAL) et Step-by-Step Coding (SBSC). CoT s'avère plus robuste face aux variations (drop 1,3pp vs 1,7pp pour PAL), contredisant l'hypothèse que l'exécution de code améliore la robustesse du raisonnement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain