Topic

#Alignement

L'alignement désigne, en IA, le défi de faire en sorte qu'un modèle agisse conformément aux intentions et valeurs humaines. GPT-4 d'OpenAI a été entraîné avec du RLHF (renforcement par retour humain) pour réduire les réponses nuisibles ou trompeuses.

40Articles
6Sources
73Signal moyen
arXiv cs.CL·

The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment

Étude géométrique montrant que l'accord inter-LLM sur les évaluations subjectives ne reflète pas l'alignement humain. Sur 41 juges LLM et 8 langues indiennes, les modèles utilisent 30-50% de la plage de scores humains, avec un axe d'évaluation quasi-orthogonal aux humains (87-89° vs 78-81°). L'accord LLM-LLM (r≈0.35) dépasse LLM-humain (r≈0.27-0.32). Seule la calibration post-hoc améliore tous les critères.

ÉvaluationsAlignementBenchmarks
SIG
82
HYP
00
arXiv cs.CL·

The Deliberative Illusion: Diagnosing Factual Attrition and Stance Homogenization in Multi-Agent LLM Deliberation

Les systèmes multi-agents LLM perdent jusqu'à 72% des faits critiques lors de la délibération, créant une « illusion délibérative ». DelibTrace mesure cette attrition factuelle et l'homogénéisation des positions. Les agents convergent vers un consensus tout en oubliant les éléments essentiels pour interpréter le problème.

Multi-agentsAgents IAÉvaluations
SIG
78
HYP
00
arXiv cs.CL·

The Ghost Annotator: a Framework to Explore Human Label Variation in Content Moderation through Conformal Prediction

Framework combinant prédiction conforme et représentation collaborative pour analyser le comportement des LLM face aux annotateurs humains en modération de contenu. Introduit la métrique Ghost Prediction pour quantifier les divergences modèle-humains. Évaluation sur 4 LLM et 4 datasets révèle que les grands modèles sont plus confiants sur textes sans alignement humain, avec biais démographique structurel.

ÉvaluationsSécurité IAAlignement
SIG
72
HYP
00
arXiv cs.CL·

Topics as Proxies for Sociodemographics: How Conversational Context Affects LLM Answers

Étude arXiv montrant que les LLM ne déduisent pas bien les caractéristiques socio-démographiques des utilisateurs à partir d'un historique conversationnel unique. Les disparités observées dans les conseils (juridique, médical, financier) sont faibles mais présentes. Les sujets de conversation s'avèrent plus prédictifs que les données socio-démographiques et affectent les réponses de manière imprévisible.

PapersSécurité IAAlignement
SIG
72
HYP
00
arXiv cs.AI·

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI aligne les représentations structurées des dossiers médicaux électroniques (EHR) avec l'espace sémantique d'un LLM gelé via un resampler task-aware. Le framework multimodal intègre les représentations longitudinales des patients avec des descriptions d'événements cliniques raffinées, améliorant le raisonnement clinique interprétable tout en maintenant la performance prédictive sur le benchmark EHRSHOT.

RAGRaisonnementÉvaluations
SIG
72
HYP
00
Reddit r/MachineLearning·

Backpropagation destroys V1 brain alignment in one epoch, tracking RSA alignment to fMRI across training for BP, FA, predictive coding, and STDP [R]

Étude comparative de règles d'apprentissage (backprop, feedback alignment, predictive coding, STDP) via alignement RSA avec fMRI V1 humain. Backprop détruit 90% de l'alignement V1 après 1 epoch (r: 0.102→0.011), tandis que PC et STDP ne perdent que 25-31%. À epoch 40: PC/STDP >> BP/FA. Suggère un trade-off fondamental entre signaux d'erreur globaux (couches hautes) et alignement précoce.

AlignementBenchmarksPapers
SIG
78
HYP
00
arXiv cs.AI·

Acting with AI: An Interaction-Based Framework for Agentic Tort Liability

Un cadre juridique pour la responsabilité civile des systèmes IA agentiques. L'article propose trois catégories d'interaction (dérive autonome, outil pur, planification collaborative) et utilise les logs d'interaction comme preuve pour déterminer où la responsabilité s'attache. Introduit un standard « Agent Raisonnable » basé sur la vérification de contraintes et la traçabilité.

Agents IARégulationSécurité IA
SIG
72
HYP
00
arXiv cs.CL·

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Framework de red teaming multi-domaine évaluant 11 LLMs sur 690 scénarios cliniques. Résultats : variance substantielle (scores 0.791–0.984), défaillances critiques masquées par la précision moyenne, amplification d'erreur 10-20% sur tâches d'équité. Approche hybride (automatisée + validation humaine) nécessaire.

Sécurité IAÉvaluationsBenchmarks
SIG
82
HYP
00
arXiv cs.CL·

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Nouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).

Reinforcement learningAlignementÉvaluations
SIG
72
HYP
00
arXiv cs.CL·

On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

Étude arXiv sur les limites d'adaptation des LLM pour l'annotation. Expériences sur détection de toxicité montrent que 66% des erreurs zero-shot résistent à la correction par prompting (taux de récupération 34.8%). Les modèles suivent des définitions mal alignées sans perdre confiance. La métrique DSF (Definition-Specific Familiarity) corrélée à la performance (r=+0.41) surpasse les métriques de mémorisation.

Prompt engineeringÉvaluationsBenchmarks
SIG
78
HYP
00
arXiv cs.CL·

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models

TrustLDM est un benchmark d'évaluation de la fiabilité des modèles de diffusion de langage (LDMs), couvrant sécurité, confidentialité et équité. Les résultats montrent que les LDMs dégradent leur alignement quand des contextes malveillants sont ajoutés aux réponses masquées, indépendamment de la longueur du contexte. Un framework d'évaluation automatique (TrustLDM-Auto) identifie les configurations vulnérables.

BenchmarksSécurité IAAlignement
SIG
75
HYP
00
arXiv cs.AI·

Capability Self-Assessment: Teaching LLMs to Know Their Limits

Les LLM modernes surestiment systématiquement leurs capacités et tentent de résoudre des requêtes impossibles. Des chercheurs proposent Capability Self-Assessment (CSA), formalisé comme un problème d'apprentissage par renforcement, pour enseigner aux modèles à reconnaître leurs limites. L'RL surpasse le fine-tuning supervisé, préserve les capacités originales et généralise hors-distribution.

Reinforcement learningAlignementÉvaluations
SIG
78
HYP
00
arXiv cs.LG·

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

FoLoRA, un framework d'optimisation conscient de l'oubli, adapte les modèles de fondation via quotient de Rayleigh généralisé. Il équilibre performance sur tâche cible et préservation des capacités préentraînées en pénalisant les directions d'adaptation à faible utilité relative à l'oubli. Testé sur adaptation mathématique, code et suivi d'instructions.

Fine-tuningPapersAlignement
SIG
72
HYP
00
arXiv cs.AI·

Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight

Méthode OPCD pour améliorer les grands modèles via critiques faibles. Au lieu d'utiliser des superviseurs faibles comme annotateurs, on les emploie comme critiques pour guider les révisions. La distillation progressive filtre les critiques de qualité et les intègre au modèle fort via signaux d'auto-enseignement adaptatifs. Résultats sur benchmarks de raisonnement et alignement.

RaisonnementAlignementReinforcement learning
SIG
72
HYP
00
arXiv cs.CL·

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Étude de la dominance narrative globale dans les LLM via CulturalNB, dataset de 717 instances culturelles bengali avec paires questions-réponses parallèles anglais-bangla. Évaluation de 9 LLM montre que les questions en anglais augmentent la substitution globale et réduisent la couverture des perspectives locales, même avec des preuves locales.

BenchmarksAlignementSécurité IA
SIG
75
HYP
00
arXiv cs.CL·

Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

Des chercheurs démontrent que les watermarks statistiques dans les LLM sont vulnérables aux ensembles linéaires. En moyennant les distributions de probabilité de 3-5 modèles, les perturbations introduites par les watermarks s'annulent. La méthode WASH (Watermark Attenuation via Statistical Hybridisation) supprime la détection sur 6 schémas de watermarking testés, réduisant les z-scores de 5-300 à <2 (seuil: 4).

Sécurité IAAlignementPapers
SIG
82
HYP
00
arXiv cs.AI·

LLM-FACETS: A Privacy-Preserving Framework for Evaluating LLM Transparency and Accountability

LLM-FACETS est un framework open-source pour évaluer la factualité, l'étalonnage épistémique et la reproductibilité des LLM. Interface web, architecture plugin, métriques déterministes (BLEU, ROUGE, BERTScore) exécutées localement, visualisation log-probabilités, consensus multi-judge, métriques RAG Triad. Conçu pour experts techniques, domaine et compliance officers selon EU AI Act et NIST.

ÉvaluationsSécurité IAAlignement
SIG
78
HYP
00
arXiv cs.CL·

COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models

COFT est une méthode de décodage sans entraînement qui réduit les biais dans la génération de chaînes de pensée (CoT) des LLM. Elle utilise des prompts contrefactuels masqués et la fusion de logits pour atténuer les biais liés aux attributs sensibles, avec garanties de validité marginale sans distribution. Évaluation sur 6 modèles : réduction de 30-55% des biais (médiane 38%) sans perte d'utilité.

RaisonnementSécurité IAAlignement
SIG
78
HYP
00
arXiv cs.AI·

COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents

COMPASS est un framework d'alignement de sécurité pour agents de recherche LLM multi-étapes. Il combine l'exploration d'arbres cognitifs (CTE) pour synthétiser des trajectoires d'attaque et l'alignement introspectif (ISA) pour superviser les actions intermédiaires risquées. Résultats : meilleur compromis sécurité-utilité avec moins de données d'entraînement.

Agents IASécurité IAAlignement
SIG
72
HYP
00
arXiv cs.AI·

A Persona-Based Evaluation Framework for Pluralistic Alignment in Generative AI

Cadre d'évaluation basé sur des personas pour l'alignement pluraliste des IA génératives. Remplace les benchmarks monolithiques par une variété de profils cognitifs synthétiques représentant diverses perspectives humaines. Révèle une dégradation systématique de la cohérence des personas sous inférence séquentielle, suggérant le besoin de mécanismes de régulation dynamiques.

AlignementÉvaluationsBenchmarks
SIG
72
HYP
00
arXiv cs.CL·

Neuron-Level Interventions for Gendered and Gender-Neutral Generation in Language Models

Étude des neurones liés au genre dans les modèles de langage (féminin, masculin, neutre). Les auteurs proposent une méthode d'intervention au niveau neuronal pour identifier et contrôler la génération de formes genrées. Expériences sur deux LMs open-source montrent que les neurones genrés se concentrent dans les premières couches. Code et datasets publiés.

PapersAlignementSécurité IA
SIG
75
HYP
00
arXiv cs.LG·

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Étude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.

PapersSécurité IAAlignement
SIG
82
HYP
00
arXiv cs.LG·

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

NumLeak mesure la mémorisation de benchmarks publics dans les LLM frontier. Les modèles rappellent les données Fama-French (r=0.97-0.99), chômage US et température NOAA avec haute fidélité. Sur données récentes non vues, le taux de parsing chute à 21-57% mais r reste ~0.99 pour les mois répondus. Une défense prompt-système bloque 99.8% des attaques.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
00
arXiv cs.LG·

Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents

Un nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.

BenchmarksÉvaluationsAgents IA
SIG
82
HYP
00
arXiv cs.LG·

Supervised Training Rapidly Degrades Early Visual Cortex Alignment Across Biologically Plausible Learning Rules

Des réseaux de neurones non entraînés correspondent mieux au cortex visuel précoce que des réseaux entraînés. Une étude sur 720 images (THINGS) et données fMRI de 3 sujets montre qu'une époque de training réduit l'alignement V1 de 25-90% selon la règle d'apprentissage. La rétropropagation dégrade le plus (Δr = -0.080), tandis que le codage prédictif et STDP préservent mieux l'alignement (Δr ~ -0.04).

PapersRaisonnementAlignement
SIG
75
HYP
00
arXiv cs.LG·

AMNESIA: A Large Scale Medical Unlearning Benchmark Suite with Disease-Informed Analysis

AMNESIA est le premier benchmark open-source à grande échelle pour l'oubli sélectif dans les LLMs médicaux. Il contient 70 560 paires question-réponse issues de 8 820 dossiers patients couvrant 11 catégories de maladies. Les auteurs évaluent 4 méthodes d'unlearning et révèlent que l'oubli de patients individuels érode la connaissance d'autres patients atteints de la même condition.

BenchmarksPapersSécurité IA
SIG
78
HYP
00