Retour au feed
arXiv cs.AI·

Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions

Signal
72
Hype
15
En 3 lignesÉtude comparative de trois approches LLM sur 1 000 problèmes mathématiques (GSM-Symbolic) : chain-of-thought (CoT), Program-Aided Language models (PAL) et Step-by-Step Coding (SBSC). CoT s'avère plus robuste face aux variations (drop 1,3pp vs 1,7pp pour PAL), contredisant l'hypothèse que l'exécution de code améliore la robustesse du raisonnement.
Lire la source
Ton avis ?
RaisonnementGénération de codeBenchmarksClaude

Résumé généré par Claude — vérifié par l'humain