PaperBench: Evaluating AI’s Ability to Replicate AI Research
OpenAI présente PaperBench, un benchmark mesurant la capacité des agents IA à reproduire des recherches IA de pointe. Le test évalue si les modèles peuvent implémenter des papiers scientifiques complexes de manière autonome.