Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models
Signal
78
Hype
25
En 3 lignesÉtude montrant que les modèles de langage fine-tunés sur les échecs mémorisent plutôt que de généraliser. KinGPT (25M params) surpasse ChessGPT (3B) et C1-4B sur des benchmarks d'échecs, mais l'analyse révèle une reconnaissance de motifs. LLM-Modulo, framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de coups. Code et modèles open-sourcés.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain