Reddit r/MachineLearning·10 juin 2026

Routing LLMs by task verifiability: a small experiment (n=120, 3 models) inspired by Karpathy's framework [D]

Signal

Hype

En 3 lignesExpérience sur 120 tâches testant si les modèles faibles peuvent égaler les frontière sur des tâches hautement vérifiables (Karpathy). Claude Sonnet 4.6, GPT 5.5, Mistral 3 8B comparés. Code/extraction structurée : écarts réduits avec retry (Mistral 87%→95% code). Raisonnement multi-hop : gap réel (Sonnet 78%, Mistral 51%). Résumé créatif : avantage attendu aux modèles puissants.

Lire la source

Ton avis ?

Claude GPT Mistral Évaluations Raisonnement

Résumé généré par Claude — vérifié par l'humain

Routing LLMs by task verifiability: a small experiment (n=120, 3 models) inspired by Karpathy's framework [D]

Autres angles sur ce sujet