Topic

#Sécurité IA

La sécurité IA désigne l'ensemble des pratiques visant à rendre les systèmes d'IA fiables, alignés sur les intentions humaines et exempts de comportements dangereux. Anthropic, par exemple, structure le développement de Claude autour de principes de sécurité explicites.

40Articles

5Sources

70Signal moyen

arXiv cs.CL·18 juin

Possible or Definite? A Benchmark for Evaluating Diagnostic Uncertainty Preservation in Clinical Text

Benchmark d'évaluation de 1 200 documents cliniques avec 9 184 annotations d'incertitude diagnostique. Les LLM préservent mal les expressions d'incertitude (moins de 50% des cas) et confondent les niveaux adjacents. Révèle un défaut non détecté par les métriques standard.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Redact or Keep? A Fully Local AI Cascade for Educational Dialogue De-Identification

Framework local de dé-identification pour dialogues éducatifs. Cascade à deux étages : proposeur union (encodeurs légers + règles déterministes) génère candidats PII, puis reviewer binaire Redact/Keep utilise contexte et rôle du locuteur. Atteint 0.958 F1 macro sur transcriptions tutoriel math, surpasse LLM commercial (0.706) et baseline locale (0.767), s'exécute sur laptop unique.

RAG Sécurité IA Papers

SIG

HYP

arXiv cs.CL·18 juin

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

Étude de l'impact collatéral du machine unlearning sur les LLM. Les auteurs montrent que les dégâts s'étendent au-delà du forget set selon un gradient de distance sémantique, et proposent PreUnlearn, une méthode de prédiction pré-unlearning pour auditer les risques avant exécution.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

Output Vector Editing for Memorization Mitigation in Large Language Models

Méthode de suppression de mémorisation dans les LLM par édition des vecteurs de sortie des neurones MLP. Testée sur 4 modèles (360M-7B paramètres), atteint 87,9% de suppression sur OLMo-7B avec 6831 séquences mémorisées. Approche complémentaire aux méthodes d'ablation neuronale existantes.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

RedactionBench

RedactionBench est un benchmark de 200 documents annotés manuellement couvrant 11 domaines pour évaluer la redaction d'informations personnelles (PII) en contexte. Introduit avec R-Score, une métrique au niveau caractère, il montre que 35 modèles (NER, SLM, frontier models) échouent sur les redactions contextuelles : consensus humain à 89,4% pour redactions obligatoires, 47,7% pour redactions contextuelles.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

Étude sur l'évaluation des rapports radiologiques générés par IA. Les chercheurs montrent que les LLM existants pénalisent excessivement les reformulations inoffensives tout en détectant les erreurs cliniques. Ils entraînent des métriques légères sur Qwen3-8B et MedGemma-4B surpassant des modèles médicaux 32B, avec publication du dataset et de la métrique.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.LG·18 juin

Self-CTRL: Self-Consistency Training with Reinforcement Learning

Self-CTRL optimise la cohérence entre les auto-explications et le comportement des modèles de langage via apprentissage par renforcement. Sur un task de raisonnement probabiliste, la méthode améliore la corrélation R² de 0.24 à 0.64. En IA constitutionnelle, elle augmente la prédiction des refus de 36% à 92% et réduit le taux d'échec HarmBench de 15.0% à 0.5%.

Reinforcement learning Alignement Sécurité IA

SIG

HYP

arXiv cs.AI·18 juin

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

SciRisk-Bench est un benchmark d'évaluation de la sécurité des LLM dans les workflows AI4Science. Il couvre 7 disciplines, 31 sous-disciplines et 10 dimensions de risque. Les auteurs évaluent des LLM mainstream et orientés science pour diagnostiquer les lacunes de sécurité.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·18 juin

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Safety Reflection Pretraining intègre des réflexions de sécurité courtes dans les corpus de préentraînement pour établir l'auto-surveillance directement dans la modélisation du langage. Sur des modèles 1.7B préentraînés sur FineWeb-Edu, la méthode améliore la précision de classification de sécurité et réduit substantiellement les taux de succès des attaques en inférence et fine-tuning.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.CL·18 juin

Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance

PhysAssistBench est un benchmark d'assistance médecale interactive basé sur 1 296 tours validés par des médecins, construits à partir de cas réels MIMIC-IV. Il évalue la capacité des LLMs à coordonner connaissances cliniques, communication patient et interaction EHR dans un même dialogue. Les expériences montrent que les modèles actuels restent peu fiables dans ce contexte.

Benchmarks Agents IA Multi-agents

SIG

HYP

arXiv cs.CL·18 juin

Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining

ImpSH, un framework basé sur les triplets, améliore la détection de discours haineux implicite en alignant les posts avec leurs énoncés implicites et en utilisant des négatifs semi-durs bornés par le contexte. Évalué sur IHC, SBIC et DynaHate avec BERT et HateBERT, il améliore la performance cross-domain et offre une représentation plus stable que les approches contrastives supervisées standard.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.LG·18 juin

SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

Les autoencodeurs creux (SAE) décomposent les activations en features interprétables, mais une étude montre que bloquer une feature « dangereuse » ne supprime pas le comportement : celui-ci peut se rétablir via d'autres chemins résiduels. Même avec intervention active, 95,8% de récupération du comportement est possible en refusal-steering, révélant un écart entre contrôle des features et contrôle comportemental.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

The Illusion of Improvement: Reject Inference Strategies in Credit Scoring

Les méthodes de reject inference utilisées en scoring crédit pour corriger le biais de survie masquent un problème structurel : l'accuracy peut s'améliorer tandis que la capacité à rejeter les défaillants s'effondre. Les auteurs proposent une stratégie d'exploration contrôlée (approuver 2-5% des candidats rejetés) pour diagnostiquer cette dégradation sans hypothèses statistiques fortes.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Beyond AHI: An Interpretable Causal-Discovery-Guided Framework for Sleep Recovery in Connected Health

Framework causal pour scorer la récupération du sommeil à partir de polysomnographie multimodale. Utilise DAG learning sur deux cohortes (MESA n=1540, MrOS n=825) pour identifier 5 domaines physiologiques (charge respiratoire, hypoxie, fragmentation, architecture, régulation autonome). Le Sleep Recovery Score (SRS) obtient 2.5× meilleure corrélation avec la récupération perçue que l'AHI classique.

Papers Raisonnement Évaluations

SIG

HYP

Hacker News (AI)·17 juin

License Plate Cameras Will Soon Track Phones, Wearables, Infotainment and Pets

Des caméras de lecture de plaques d'immatriculation vont bientôt tracker les téléphones, appareils portables, systèmes d'infodivertissement et animaux de compagnie via Bluetooth et WiFi. Technologie de surveillance de masse en développement.

Sécurité IA Régulation

SIG

HYP

Hacker News (AI)·17 juin

I scored 200 blockchain NPM packages for deprecation and hijack risk

Audit de sécurité de 200 packages NPM liés à la blockchain : évaluation des risques de dépréciation et de détournement. Méthodologie de scoring appliquée à l'écosystème des dépendances critiques.

Sécurité IA Open source

SIG

HYP

Hacker News (AI)·17 juin

The hacker sent by Anthropic to calm the government's nerves about AI safety

Anthropic envoie un expert en sécurité IA auprès des gouvernements pour rassurer sur les risques de l'IA. L'initiative vise à établir un dialogue direct entre l'entreprise et les régulateurs sur les enjeux de sécurité et d'alignement.

Anthropic Sécurité IA Régulation

SIG

HYP

Hacker News (AI)·17 juin

Only 16 Percent of Americans Think AI Will Have a Positive Impact on Society

Sondage : 16% des Américains pensent que l'IA aura un impact positif sur la société. La majorité exprime des préoccupations sur les effets économiques et sociétaux, tandis que les experts restent plus optimistes.

Sécurité IA Régulation

SIG

HYP

The Decoder·17 juin

OpenAI researchers want to predict how often AI models will fail before launch

Des chercheurs d'OpenAI proposent une méthode pour prédire la fréquence des erreurs d'un modèle IA après son lancement. Cette approche comblerait les lacunes des tests de sécurité standards.

OpenAI Évaluations Sécurité IA

SIG

HYP

Hacker News (AI)·17 juin

AI demands more engineering discipline. Not less

Un article plaidant pour une plus grande rigueur d'ingénierie dans le développement IA, contre la tendance à minimiser les standards techniques. Critique l'approche « move fast and break things » appliquée aux systèmes critiques.

Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·17 juin

LLMs Infer Cultural Context but Fail to Apply It When Responding

Les LLMs peuvent inférer le contexte culturel mais échouent à l'appliquer dans leurs réponses. Un nouveau dataset CAPRI montre que les modèles reconnaissent les conventions culturelles (unités de mesure, interprétation du temps) mais ne les utilisent pas spontanément, sauf avec instructions explicites. Les biais restent alignés avec le pays d'origine du modèle.

Benchmarks Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

Sum-of-Squares Degree Barriers for the Reweighted-Hinge Method in Robust Halfspace Learning: A Christoffel-Function Characterization

Article théorique sur les barrières de degré Sum-of-Squares pour l'apprentissage robuste de demi-espaces avec bruit malveillant. La fonction de Christoffel caractérise exactement la corruption qu'un certificat de degré borné ne peut pas éliminer. Démontre un compromis marge-degré et un algorithme de degré-2t atteignant la frontière η^(1-1/2t).

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

Rift: A Conflict Signature for Deception in Language Models

Des chercheurs identifient une signature interne de la tromperie dans les modèles de langage : les réponses mensongères affichent une rang résiduel 2.1-2.3x plus élevé que les réponses naïvement fausses. Cette signature détecte la déception avec 100% de précision sur GPT-2, Qwen2.5 et Phi-3, et transfère zero-shot entre familles de modèles et langues (AUC 0.933-1.0).

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.CL·17 juin

AIPatient Arena: EHR-grounded evaluation of large language models in end-to-end clinical consultation workflows

AIPatient Arena évalue les LLM en consultation clinique multi-tours sur 8 dimensions via des graphes de connaissances EHR. Sur 437 patients, les modèles excellent en questionnement (4.43-4.99/5) et conduite éthique (4.38-4.93/5), mais échouent en diagnostic (2.63-3.55/5) et couverture informationnelle (2.08-3.02/5). Les faiblesses incluent répétitions, omissions d'antécédents, gestion insuffisante de l'incertitude.

Évaluations Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

Evaluating Second-Order Bias of LLMs Through Epistemic Entitlement

Étude d'un biais de second ordre chez les LLMs : comment les modèles jugent les contenus biaisés, au-delà de leur génération. Basée sur l'épistémologie de l'entitlement, la méthode évalue si les LLMs infèrent correctement les démographies sans justification suffisante. Résultats : biais systématique selon les groupes ciblés, contournement des garde-fous, persistance des déclencheurs démographiques.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·17 juin

The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reports

Étude sur 450 rapports de radiologie thoracique montrant que la réécriture par LLM pour standardisation préserve l'alignement image-texte (2,5% de dégradation) mais érode 26,8-29,3% des entités cliniques et 14,9-16,5% du langage d'incertitude. Le paradoxe : les tâches produisant du texte « plus propre » éloignent le contenu de l'image.

Vision RAG Évaluations

SIG

HYP

arXiv cs.LG·17 juin

The Critical Role of Model Selection in Causal Inference: A Comparative Analysis of Classification Models within the InferBERT Framework for Pharmacovigilance

InferBERT combine transformers et Do-calculus pour détecter les effets indésirables causaux en pharmacovigilance. Étude comparative sur AILF et TRAM : BioBERT surpasse XGBoost, ALBERT et Med-LLaMA. Conclusion : le pré-entraînement spécialisé (biomedical) prime sur la taille du modèle.

Benchmarks Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

MM++: Unsupervised Scale-Invariant Multilayer OOD Detection via Top-K Gated Feature Fusion

MM++ est une méthode non-supervisée et post-hoc pour la détection d'anomalies (OOD). Elle fusionne les couches intermédiaires sélectionnées par entropie avec la représentation finale via une matrice de covariance régularisée (Ledoit-Wolf), sans données auxiliaires ni modification architecturale.

Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

Memory-Efficient Meta-Reinforcement Learning for Adaptive Safety-Critical Control in Adversarial Spacecraft Proximity Operations

Étude comparative de trois architectures récurrentes (LSTM, GRU, Mamba) et deux algorithmes (PPO, SAC) pour l'apprentissage par renforcement méta appliqué aux fonctions de barrière de contrôle (ICCBF) en opérations de proximité spatiale. Mamba + PPO surpasse les autres configurations en sécurité, complétude des tâches et économies de carburant, même en présence de comportements adversariaux.

Reinforcement learning Sécurité IA Robotique

SIG

HYP

arXiv cs.LG·17 juin

MorphStrata: Layer-Specific Perturbations for Generating Morphence Students in Time-Series Moving Target Defense

MorphStrata améliore la défense Moving Target Defense pour les modèles de prévision de séries temporelles en injectant du bruit stochastique sélectif par couche. Testé sur Transformer avec attaques FGSM, BIM et PGD, l'approche réduit l'RMSE adversarial jusqu'à 97,97% sur données AEP avec surcoût d'entraînement <1%.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.LG·17 juin

Credibility-Weighted Pricing of Autonomous Vehicle Liability Under Operational Design Domain Shift

Framework bayésien hiérarchique pour tarifier la responsabilité civile des véhicules autonomes face aux changements de domaine opérationnel. Testé sur 648 accidents Waymo vérifiés (4 villes US, 116M miles) : poids de crédibilité modérés (0.12-0.46), pooling partiel surpasse l'absence de pooling, avantage du kernel détectable à ~12 villes déployées.

Sécurité IA Benchmarks Régulation

SIG

HYP

arXiv cs.AI·17 juin

Treatment Response Optimized Clinical Decision Support AI System via Digital Twin Simulation

Système IA d'aide à la décision clinique utilisant des jumeaux numériques (Digital Twin), l'estimation des effets de traitement et l'apprentissage par renforcement pour recommander des traitements adaptatifs en temps réel. Validation sur données synthétiques et dataset ovarian cancer TCGA. Module de sécurité basé sur règles avec escalade clinicienne pour cas d'incertitude.

Reinforcement learning Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·17 juin

MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation

MODE-RAG est un système multi-agent basé sur l'énergie libre variationnelle pour réduire les hallucinations dans les systèmes de génération augmentée par récupération multimodale. Il utilise MCTS, perturbations logit et des agents spécialisés pour router les requêtes à haut risque et vérifier les faits. Les auteurs introduisent ModeVent, un sous-ensemble du dataset MultiVent, pour évaluer la robustesse.

RAG Multi-agents Vision

SIG

HYP

arXiv cs.CL·17 juin

Decoding Hidden Deception in Reasoning LLMs: Activation Explainers for Deception Auditing

STATEWITNESS, un expliciteur d'activations, détecte la tromperie dans les LLMs de raisonnement en lisant les états cachés du modèle cible et répondant à des requêtes en langage naturel. Atteint 0.916 AUROC, +11.6% vs meilleur moniteur texte black-box, +25.0% vs baseline probe. Fournit traces d'évidence au niveau token/phrase pour inspection humaine.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·17 juin

Probing, Fusion, and Trustworthiness: A Systematic Evaluation of Foundation Model Representations for Multimodal Cancer Analysis

Évaluation systématique de représentations de modèles de fondation (5 FMs) sur des tâches de pathologie computationnelle utilisant images entières de lames et profils transcriptomiques (cohorts IH-BC, IH-NSCLC). Fusion multimodale améliore les performances quand aucune modalité ne domine. Prédiction conforme montre que le diagnostic correct reste récupérable dans 90% des cas d'erreur.

Vision Benchmarks Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

CheckMIABench: Firm Foundations For Membership Inference Attacks on Language Models

CheckMIABench propose un benchmark pour évaluer les attaques d'inférence d'appartenance (MIA) sur les modèles de langage. En exploitant les checkpoints intermédiaires de modèles open-source (Pythia, OLMo, 70M-7B), les auteurs créent des testbeds fiables où les données avant/après un point fixe partagent la même distribution. Ils testent six attaques publiées et ouvrent une librairie modulaire (pandora_llm).

Papers Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·17 juin

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

SpeechDx est un benchmark multi-tâches pour l'IA clinique basée sur la parole, couvrant 12 datasets et 27 tâches sur diverses conditions de santé. Les tâches sont structurées par étapes de production vocale (conceptualisation, formulation, articulation). L'évaluation de 12 encodeurs audio montre que les modèles de parole à grande échelle surpassent les modèles spécialisés, mais aucun ne généralise fiablement.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.AI·17 juin

Surrogate Assisted Pedestrian Protection Design via a Foundation Model Orchestrated Workflow

Workflow d'optimisation de sécurité piétonne orchestré par modèle de fondation. Intègre surrogate ML (R²=0.87), recherche évolutionnaire multi-objectif, générateur de géométrie et interface LLM. Réduit temps d'évaluation de heures à secondes ; produit 35 alternatives conformes en cas d'étude pare-chocs automobile.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.AI·17 juin

Using Cognitive Models to Improve Language Model Simulation of Human Persuasion Games

Les chercheurs proposent « Equation-to-Behavior Prompting » pour guider les LLM à simuler différents modèles cognitifs humains (Bayésien, motivated reasoning, modèle α-β de Grether). Les grands modèles approximent ces spécifications par prompting, mais les petits modèles échouent. L'entraînement par RL réduit l'erreur de croyance de 26,5% et améliore les performances de 2,5–12% sur des jeux de persuasion légaux.

Raisonnement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·17 juin

DiagFlowBench: Evaluating How Language Models Handle Off-Procedure Inputs in Grounded Diagnostic Dialogue

DiagFlowBench évalue comment les modèles de langage gèrent les requêtes hors-procédure dans le diagnostic industriel. Un dataset de 1 676 conversations multi-tours basées sur 50 flowcharts de diagnostic révèle que les modèles sélectionnent souvent une étape réelle mais inadéquate plutôt que d'halluciner, créant une vulnérabilité : des conseils plausibles mais incorrects.

Benchmarks Évaluations Raisonnement

SIG

HYP

Sécurité IA — actualité IA · Signal IA