arXiv cs.AI·19 mai 2026

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Signal

Hype

En 3 lignesÉtude montrant que les modèles de langage fine-tunés sur les échecs mémorisent plutôt que de généraliser. KinGPT (25M params) surpasse ChessGPT (3B) et C1-4B sur des benchmarks d'échecs, mais l'analyse révèle une reconnaissance de motifs. LLM-Modulo, framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de coups. Code et modèles open-sourcés.

Lire la source

Ton avis ?

Benchmarks Évaluations Fine-tuning Papers

Résumé généré par Claude — vérifié par l'humain

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Autres angles sur ce sujet