Retour au feed
arXiv cs.AI·

State-of-the-Art Claims Require State-of-the-Art Evidence

Signal
78
Hype
15
En 3 lignesÉtude critique des affirmations « state-of-the-art » en IA/ML. Analyse de 10 benchmarks publics révèle que plus de 50% des comparaisons de modèles top ne supportent pas les propriétés implicites de supériorité (effet significatif, consistance inter-tâches, robustesse). Les gains agrégés reposent souvent sur des datasets aberrants. Propose un langage de claim plus honnête sans expériences supplémentaires.
Lire la source
Ton avis ?
BenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain