Retour au feed
Reddit r/MachineLearning·

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

Signal
78
Hype
15
En 3 lignesCVE-Bench évalue 5 modèles frontier sur 20 CVEs réelles (Pillow, GitPython, urllib3, etc.) avec 300 runs. Taux de résolution max 50% (60% en advisory). Les agents corrigent syntaxiquement mais laissent la vulnérabilité ouverte. Écarts significatifs cross-family (OpenAI vs Laguna, p<0.05), bruit intra-famille. Analyse des défaillances : drift de recherche, hallucinations, manque de contextualisation.
Lire la source
Ton avis ?
Agents IABenchmarksSécurité IAÉvaluationsGénération de code

Résumé généré par Claude — vérifié par l'humain