Reddit r/MachineLearning·25 mai 2026

The famous METR AI time horizons graph contains numerous severe errors [D]

Signal

Hype

En 3 lignesNathan Witkin (NYU Stern) critique sévèrement le graphique METR sur les horizons temporels de l'IA. Les erreurs incluent : baselines humaines non mesurées mais estimées, benchmarkers payés à l'heure (incitation à traîner), échantillon biaisé vers les pairs des auteurs, et ignorance de l'avantage de familiarité (5-18x plus rapide). Witkin conclut que le graphique contient trop d'erreurs cumulatives pour être sauvé.

Lire la source

Ton avis ?

Benchmarks Évaluations Sécurité IA

Résumé généré par Claude — vérifié par l'humain

The famous METR AI time horizons graph contains numerous severe errors [D]

Autres angles sur ce sujet