JobBench: Aligning Agent Work With Human Will
Signal
78
Hype
25
En 3 lignesJobBench est un benchmark évaluant 36 modèles IA (dont Claude Opus à 45,9%) sur 130 tâches professionnelles réelles couvrant 35 métiers. Contrairement aux benchmarks existants axés sur la valeur économique, JobBench priorise les workflows que les experts identifient comme prioritaires pour la délégation, favorisant l'augmentation plutôt que le remplacement humain.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain