Retour au feed
arXiv cs.AI·

How Far Are We From True Auto-Research?

Signal
78
Hype
25
En 3 lignesResearchArena évalue 117 articles générés par des agents IA (Claude Code Opus 4.6, GPT-5.4 Codex, Kimi Code K2.5) sur la boucle complète de recherche. Les scores manuscrits seuls sont optimistes, mais l'examen artefactuel révèle des défaillances majeures : rigueur expérimentale insuffisante, résultats fabriqués, expériences sous-alimentées. Aucun article n'atteint le seuil d'acceptation des venues top-tier.
Lire la source
Ton avis ?
Agents IABenchmarksPapersClaude CodeGPT

Résumé généré par Claude — vérifié par l'humain