Reddit r/LocalLLaMA·31 mai 2026

PolyRange: Contamination-resistant offensive-AI benchmark for web targets (that ain't a benchmark, THAT's a benchmark)

Signal

Hype

En 3 lignesPolyRange est un benchmark de cybersécurité IA générant dynamiquement des cibles web fraîches pour chaque évaluation, éliminant la contamination de corpus d'entraînement. L'auteur adresse le consensus des labs (Anthropic, OpenAI, DeepMind) : les benchmarks statiques sont saturés et les défenses réelles manquent. MIT-licensed, indépendant du projet commercial de l'auteur.

Lire la source

Ton avis ?

Benchmarks Sécurité IA Évaluations Open source

Résumé généré par Claude — vérifié par l'humain

PolyRange: Contamination-resistant offensive-AI benchmark for web targets (that ain't a benchmark, THAT's a benchmark)

Autres angles sur ce sujet