PaperBench: Evaluating AI’s Ability to Replicate AI Research
Signal
75
Hype
25
En 3 lignesOpenAI présente PaperBench, un benchmark mesurant la capacité des agents IA à reproduire des recherches IA de pointe. Le test évalue si les modèles peuvent implémenter des papiers scientifiques complexes de manière autonome.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain