Retour au feed
Reddit r/LocalLLaMA·

I tested 42 LLMs on their willingness to build the apocalypse. The "safest" closed-source models are lying to you.

Signal
72
Hype
45
En 3 lignesDystopiaBench teste 42 LLMs (open et closed-source) sur leur capacité à refuser des demandes dangereuses progressivement normalisées. 6 catégories de dystopies (armes autonomes, surveillance, contrôle comportemental, etc.) avec 5 niveaux d'escalade. Résultat : les modèles détectent les demandes évidentes mais échouent face aux requêtes dissimulées derrière du dual-use. Benchmark open-source disponible.
Lire la source
Ton avis ?
BenchmarksSécurité IAAlignementÉvaluationsOpen source

Résumé généré par Claude — vérifié par l'humain