Topic

#Sécurité IA

La sécurité IA désigne l'ensemble des pratiques visant à rendre les systèmes d'IA fiables, alignés sur les intentions humaines et exempts de comportements dangereux. Anthropic, par exemple, structure le développement de Claude autour de principes de sécurité explicites.

40Articles
11Sources
66Signal moyen
arXiv cs.CL·

Topics as Proxies for Sociodemographics: How Conversational Context Affects LLM Answers

Étude arXiv montrant que les LLM ne déduisent pas bien les caractéristiques socio-démographiques des utilisateurs à partir d'un historique conversationnel unique. Les disparités observées dans les conseils (juridique, médical, financier) sont faibles mais présentes. Les sujets de conversation s'avèrent plus prédictifs que les données socio-démographiques et affectent les réponses de manière imprévisible.

PapersSécurité IAAlignement
SIG
72
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> NVIDIA /</span> OpenShell

OpenShell est un runtime sécurisé et privé pour agents IA autonomes, développé par NVIDIA. Le projet est disponible sur GitHub et vise à fournir une infrastructure d'exécution contrôlée pour les systèmes multi-agents.

Agents IAMulti-agentsInfrastructure
SIG
45
HYP
00
Reddit r/MachineLearning·

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

CVE-Bench évalue 5 modèles frontier sur 20 CVEs réelles (Pillow, GitPython, urllib3, etc.) avec 300 runs. Taux de résolution max 50% (60% en advisory). Les agents corrigent syntaxiquement mais laissent la vulnérabilité ouverte. Écarts significatifs cross-family (OpenAI vs Laguna, p<0.05), bruit intra-famille. Analyse des défaillances : drift de recherche, hallucinations, manque de contextualisation.

Agents IABenchmarksSécurité IA
SIG
78
HYP
00
arXiv cs.AI·

Acting with AI: An Interaction-Based Framework for Agentic Tort Liability

Un cadre juridique pour la responsabilité civile des systèmes IA agentiques. L'article propose trois catégories d'interaction (dérive autonome, outil pur, planification collaborative) et utilise les logs d'interaction comme preuve pour déterminer où la responsabilité s'attache. Introduit un standard « Agent Raisonnable » basé sur la vérification de contraintes et la traçabilité.

Agents IARégulationSécurité IA
SIG
72
HYP
00
arXiv cs.CL·

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Framework de red teaming multi-domaine évaluant 11 LLMs sur 690 scénarios cliniques. Résultats : variance substantielle (scores 0.791–0.984), défaillances critiques masquées par la précision moyenne, amplification d'erreur 10-20% sur tâches d'équité. Approche hybride (automatisée + validation humaine) nécessaire.

Sécurité IAÉvaluationsBenchmarks
SIG
82
HYP
00
arXiv cs.CL·

RealityTest: How People Probe AI Identity and Whether Models Disclose It

RealityTest évalue si les systèmes IA divulguent leur identité quand interrogés. Benchmark multilingue et multimodal basé sur 3 152 requêtes collectées auprès de ~750 participants dans 49 pays, 5 langues (texte et voix). Résultats : 31% seulement posent la question directement ; une instruction de suppression réduit la divulgation sous 30% même pour les meilleurs modèles.

Sécurité IAÉvaluationsBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

Product-Aware Deep Autoencoders for Robust Process Monitoring in Multi-Product Cyber-Physical Systems

Article académique proposant des autoencodeurs sensibles aux produits pour la détection d'anomalies dans les systèmes cyber-physiques multi-produits. Les modèles globaux traditionnels créent des « angles morts » où les attaques peuvent passer inaperçues. Tests sur Tennessee Eastman Process : le modèle produit-aware détecte 100% des scénarios d'attaque contre 22.2% pour le modèle global.

BenchmarksSécurité IAÉvaluations
SIG
72
HYP
00
arXiv cs.CL·

Revisiting Parameter-Based Knowledge Editing in Large Language Models: Theoretical Limits and Empirical Evidence

Étude théorique et empirique des limites de l'édition de paramètres dans les LLM. Les auteurs démontrent via l'hypothèse d'effondrement dimensionnel que les modifications localisées propagent des interférences globales dégradant les capacités du modèle. Les méthodes par récupération surpassent systématiquement l'édition paramétrique.

Fine-tuningRaisonnementPapers
SIG
78
HYP
00
arXiv cs.AI·

Position Paper: Post-Solve Robustness in Decision Engines: Feasible Regions and Smoothness Under Perturbations

Article de position sur la robustesse post-résolution dans les moteurs de décision MILP. Identifie un écart : les solutions optimales nominales deviennent infaisables sous petites perturbations de coûts ou ressources. Propose une couche d'audit formalisée autour de la solution incumbente, combinant approximations certifiées, estimation probabiliste et vérification solver-backed.

BenchmarksPapersSécurité IA
SIG
72
HYP
00
arXiv cs.AI·

Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs

Des chercheurs montrent que les traces de raisonnement cachées des LLM peuvent être extraites via Reasoning Exposure Prompting (REP), une méthode de prompting légère utilisant des démonstrations générées par modèles fantômes. REP expose les traces internes même quand les systèmes déployés les masquent intentionnellement, préservant les signaux de raisonnement utiles pour la distillation.

RaisonnementPrompt engineeringFine-tuning
SIG
75
HYP
00
arXiv cs.LG·

FLaG: Fine-Grained Latent Grouping for Hallucination Detection

FLaG est un framework léger de détection d'hallucinations dans les LLM qui modélise la fiabilité via des groupes de preuves latentes. Utilisant un mécanisme de routage basé sur l'énergie et une agrégation log-marginale, il capture des patterns hétérogènes d'hallucinations sans modifier le modèle sous-jacent. Résultats SOTA sur plusieurs benchmarks avec transfert robuste entre datasets.

Sécurité IAÉvaluationsRaisonnement
SIG
78
HYP
00
arXiv cs.LG·

Adversarially Robust Control of Conditional Value-at-Risk via Rockafellar-Uryasev Conformal Inference

Cadre en ligne sans hypothèse distributive pour contrôler la Conditional Value-at-Risk (CVaR) en environnements non-stationnaires et adversariels. Combine inférence conforme, apprentissage en ligne et représentation variationnelle de Rockafellar-Uryasev. Garanties de sécurité prouvées pour risques de queue non-linéaires. Applications : gestion de portefeuille et atténuation de toxicité LLM.

PapersSécurité IARaisonnement
SIG
72
HYP
00
arXiv cs.LG·

KG-Guard: Graph-Based Hallucination Detection for Knowledge Base Question Answering

KG-Guard détecte les hallucinations dans les systèmes de réponse à questions sur bases de connaissances (KBQA) en utilisant un graphe augmenté et un encodeur léger. Le modèle atteint F1 de 82.0–87.4 sur WebQSP/ComplexWebQuestions avec 305× moins de paramètres que les baselines, et améliore les performances KBQA de 13–14.5 points F1 en retour itératif.

RaisonnementÉvaluationsRAG
SIG
78
HYP
00
arXiv cs.CL·

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

AEyeDE propose une méthode de détection de texte généré par IA basée sur les matrices d'attention d'un modèle Transformer proxy. Un CNN léger apprend à distinguer les patterns d'attention entre texte humain et IA-généré. La méthode surpasse les baselines texte-seul et montre une robustesse en transfert cross-dataset et face aux perturbations orthographiques.

PapersSécurité IAÉvaluations
SIG
72
HYP
00
arXiv cs.CL·

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models

TrustLDM est un benchmark d'évaluation de la fiabilité des modèles de diffusion de langage (LDMs), couvrant sécurité, confidentialité et équité. Les résultats montrent que les LDMs dégradent leur alignement quand des contextes malveillants sont ajoutés aux réponses masquées, indépendamment de la longueur du contexte. Un framework d'évaluation automatique (TrustLDM-Auto) identifie les configurations vulnérables.

BenchmarksSécurité IAAlignement
SIG
75
HYP
00
arXiv cs.CL·

BOUTEF: A Multilingual Corpus for FakeNews in North Africa -- Language as a Weapon

BOUTEF est un corpus multilingue de 2 pays (Algérie, Tunisie) couvrant fausses nouvelles, narratifs authentiques, commentaires et débunkage. Inclut MSA, dialectes algérien/tunisien, arabizi, français, anglais et code-switching. Analyse révèle que les fausses nouvelles utilisent narratifs émotionnels et cadrage sensationnaliste, tandis que le débunkage adopte un style factuel.

PapersBenchmarksSécurité IA
SIG
72
HYP
00
arXiv cs.CL·

Which Institutional Frameworks Do Chatbots Assume? Auditing Jurisdictional Defaults in Multilingual LLMs

Audit de 7 LLMs (US/Chine) sur 2 520 réponses à 60 prompts juridiques en anglais et mandarin. Les modèles sélectionnent par défaut le cadre institutionnel de la langue d'entrée : 74,5% des réponses anglaises adoptent un framework US, 53,3% des réponses chinoises un framework chinois. Risque de mauvaise interprétation juridictionnelle quand la langue préférée diffère de la juridiction pertinente.

BenchmarksSécurité IARégulation
SIG
78
HYP
00
arXiv cs.AI·

Capability Self-Assessment: Teaching LLMs to Know Their Limits

Les LLM modernes surestiment systématiquement leurs capacités et tentent de résoudre des requêtes impossibles. Des chercheurs proposent Capability Self-Assessment (CSA), formalisé comme un problème d'apprentissage par renforcement, pour enseigner aux modèles à reconnaître leurs limites. L'RL surpasse le fine-tuning supervisé, préserve les capacités originales et généralise hors-distribution.

Reinforcement learningAlignementÉvaluations
SIG
78
HYP
00
Simon Willison·

Hackers Simply Asked Meta AI to Give Them Access to High-Profile Instagram Accounts. It Worked

Des hackers ont exploité le chatbot IA de support Meta pour accéder à des comptes Instagram haut-profil. En demandant simplement au bot de lier une nouvelle adresse email au compte cible, ils ont contourné l'intégralité du processus de récupération de compte. Meta avait connecté son système de support à une IA capable d'exécuter des changements de compte en une seule requête.

Meta AISécurité IAPrompt engineering
SIG
75
HYP
00
Sécurité IA — actualité IA · Signal IA