Retour au feed
Reddit r/LocalLLaMA·

PolyRange: Contamination-resistant offensive-AI benchmark for web targets (that ain't a benchmark, THAT's a benchmark)

Signal
75
Hype
25
En 3 lignesPolyRange est un benchmark de cybersécurité IA générant dynamiquement des cibles web fraîches pour chaque évaluation, éliminant la contamination de corpus d'entraînement. L'auteur adresse le consensus des labs (Anthropic, OpenAI, DeepMind) : les benchmarks statiques sont saturés et les défenses réelles manquent. MIT-licensed, indépendant du projet commercial de l'auteur.
Lire la source
Ton avis ?
BenchmarksSécurité IAÉvaluationsOpen source

Résumé généré par Claude — vérifié par l'humain