arXiv cs.AI·27 mai 2026

Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions

Signal

Hype

En 3 lignesÉtude comparative de trois approches LLM sur 1 000 problèmes mathématiques (GSM-Symbolic) : chain-of-thought (CoT), Program-Aided Language models (PAL) et Step-by-Step Coding (SBSC). CoT s'avère plus robuste face aux variations (drop 1,3pp vs 1,7pp pour PAL), contredisant l'hypothèse que l'exécution de code améliore la robustesse du raisonnement.

Lire la source

Ton avis ?

Raisonnement Génération de code Benchmarks Claude

Résumé généré par Claude — vérifié par l'humain

Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions

Autres angles sur ce sujet