arXiv cs.CL·19 mai 2026

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Signal

Hype

En 3 lignesDes chercheurs entraînent KinGPT (25M paramètres) sur des données d'échecs et montrent que les performances élevées des modèles fine-tunés sur les échecs résultent surtout du pattern-matching, non de la compréhension réelle. LLM-Modulo, un framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de meilleur coup. Code, données et checkpoints open-sourcés.

Lire la source

Ton avis ?

Benchmarks Évaluations Fine-tuning Papers Open source

Résumé généré par Claude — vérifié par l'humain

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Autres angles sur ce sujet