Retour au feed
Reddit r/MachineLearning·

The famous METR AI time horizons graph contains numerous severe errors [D]

Signal
75
Hype
45
En 3 lignesNathan Witkin (NYU Stern) critique sévèrement le graphique METR sur les horizons temporels de l'IA. Les erreurs incluent : baselines humaines non mesurées mais estimées, benchmarkers payés à l'heure (incitation à traîner), échantillon biaisé vers les pairs des auteurs, et ignorance de l'avantage de familiarité (5-18x plus rapide). Witkin conclut que le graphique contient trop d'erreurs cumulatives pour être sauvé.
Lire la source
Ton avis ?
BenchmarksÉvaluationsSécurité IA

Résumé généré par Claude — vérifié par l'humain