Hugging Face Blog·16 avril 2024

Introducing the LiveCodeBench Leaderboard - Holistic and Contamination-Free Evaluation of Code LLMs

Signal

Hype

En 3 lignesHugging Face lance LiveCodeBench, un leaderboard d'évaluation pour les LLM de code. Il propose une évaluation holistique et sans contamination de données, avec des benchmarks régulièrement mis à jour pour éviter l'overfitting des modèles sur les données de test.

Lire la source

Ton avis ?

Génération de code Benchmarks Évaluations Open source

Résumé généré par Claude — vérifié par l'humain

Introducing the LiveCodeBench Leaderboard - Holistic and Contamination-Free Evaluation of Code LLMs

Autres angles sur ce sujet