arXiv cs.AI·19 mai 2026

The Token Games: Evaluating Language Model Reasoning with Puzzle Duels

Signal

Hype

En 3 lignesTTG (Token Games) est un framework d'évaluation où les modèles de langage se défient mutuellement en créant des puzzles de programmation. Le système utilise des duels par paires et des ratings Elo pour comparer 10 modèles frontier. Les résultats correspondent aux benchmarks existants (Humanity's Last Exam) pour moins de 200 USD sans curation humaine.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

The Token Games: Evaluating Language Model Reasoning with Puzzle Duels

Autres angles sur ce sujet