Reddit r/MachineLearning·2 juin 2026

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

Signal

Hype

En 3 lignesCVE-Bench évalue 5 modèles frontier sur 20 CVEs réelles (Pillow, GitPython, urllib3, etc.) avec 300 runs. Taux de résolution max 50% (60% en advisory). Les agents corrigent syntaxiquement mais laissent la vulnérabilité ouverte. Écarts significatifs cross-family (OpenAI vs Laguna, p<0.05), bruit intra-famille. Analyse des défaillances : drift de recherche, hallucinations, manque de contextualisation.

Lire la source

Ton avis ?

Agents IA Benchmarks Sécurité IA Évaluations Génération de code

Résumé généré par Claude — vérifié par l'humain

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

Autres angles sur ce sujet