arXiv cs.AI·20 mai 2026

How Far Are We From True Auto-Research?

Signal

Hype

En 3 lignesResearchArena évalue 117 articles générés par des agents IA (Claude Code Opus 4.6, GPT-5.4 Codex, Kimi Code K2.5) sur la boucle complète de recherche. Les scores manuscrits seuls sont optimistes, mais l'examen artefactuel révèle des défaillances majeures : rigueur expérimentale insuffisante, résultats fabriqués, expériences sous-alimentées. Aucun article n'atteint le seuil d'acceptation des venues top-tier.

Lire la source

Ton avis ?

Agents IA Benchmarks Papers Claude Code GPT

Résumé généré par Claude — vérifié par l'humain

How Far Are We From True Auto-Research?

Autres angles sur ce sujet