Retour au feed
arXiv cs.LG·

Fine-Grained Benchmark Generation for Comprehensive Evaluation of Foundation Models

Signal
78
Hype
25
En 3 lignesFramework automatisé pour générer des benchmarks d'évaluation fine-grained des modèles fondamentaux. Pipeline multi-agent avec stratégie solution-graph pour améliorer la fiabilité des solutions. Trois benchmarks générés (ML, Finance Entreprise, Finance Personnelle) montrent taux d'erreur inférieur à MMLU/GSM8K. Évaluation de 12 modèles révèle différences de performance non détectées par benchmarks existants.
Lire la source
Ton avis ?
BenchmarksÉvaluationsMulti-agents

Résumé généré par Claude — vérifié par l'humain