Topic

#Papers

Les papers sont des articles de recherche scientifique publiés par des laboratoires ou universités pour présenter de nouvelles découvertes en IA. Par exemple, le paper "Attention Is All You Need" (Google, 2017) a introduit l'architecture Transformer.

40Articles

3Sources

73Signal moyen

arXiv cs.CL·18 juin

Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction

RPCL, un framework d'entraînement pour l'extraction de paires émotion-cause multimodales, améliore la robustesse des scores de confiance. Via des contraintes de marge et une corruption contextuelle, il augmente le F1 de 2.58–2.83 points sur ECF/MECAD/MEC4 sans modifier l'inférence.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.CL·18 juin

Redact or Keep? A Fully Local AI Cascade for Educational Dialogue De-Identification

Framework local de dé-identification pour dialogues éducatifs. Cascade à deux étages : proposeur union (encodeurs légers + règles déterministes) génère candidats PII, puis reviewer binaire Redact/Keep utilise contexte et rôle du locuteur. Atteint 0.958 F1 macro sur transcriptions tutoriel math, surpasse LLM commercial (0.706) et baseline locale (0.767), s'exécute sur laptop unique.

RAG Sécurité IA Papers

SIG

HYP

arXiv cs.CL·18 juin

LLM Parameters for Math Across Languages: Shared or Separate?

Étude mécanistique du raisonnement mathématique dans les LLM multilingues. Les paramètres associés aux maths montrent un chevauchement partiel entre langues, concentré dans les couches intermédiaires. L'anglais produit le plus grand ensemble de paramètres pertinents, tandis que les langues peu dotées en ressources en révèlent moins.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

Étude de l'impact collatéral du machine unlearning sur les LLM. Les auteurs montrent que les dégâts s'étendent au-delà du forget set selon un gradient de distance sémantique, et proposent PreUnlearn, une méthode de prédiction pré-unlearning pour auditer les risques avant exécution.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

Steerable Cultural Preference Optimization of Reward Models

Nouvelle méthode SCPO pour entraîner des reward models capables de représenter équitablement les préférences culturelles de différentes communautés. Gains de 7 points pour les modèles minoritaires sur PRISM et GlobalOpinionQA (7 pays), avec 280% d'efficacité accrue en données d'entraînement.

Alignement Reinforcement learning Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

Morpheus est un tokeniseur neural morphologie-aware pour le turc agglutinant. Le modèle utilise une programmation dynamique Poisson-binomial différentiable pour segmenter les morphèmes avec une compression de 1.425 bits/caractère et un alignement morphologique MorphScore F1 de 0.61 (vs ~0.32 pour les tokeniseurs subword). Lossless par construction : decode(encode(w)) = w.

Embeddings Papers Open source

SIG

HYP

arXiv cs.CL·18 juin

Output Vector Editing for Memorization Mitigation in Large Language Models

Méthode de suppression de mémorisation dans les LLM par édition des vecteurs de sortie des neurones MLP. Testée sur 4 modèles (360M-7B paramètres), atteint 87,9% de suppression sur OLMo-7B avec 6831 séquences mémorisées. Approche complémentaire aux méthodes d'ablation neuronale existantes.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.CL·18 juin

RedactionBench

RedactionBench est un benchmark de 200 documents annotés manuellement couvrant 11 domaines pour évaluer la redaction d'informations personnelles (PII) en contexte. Introduit avec R-Score, une métrique au niveau caractère, il montre que 35 modèles (NER, SLM, frontier models) échouent sur les redactions contextuelles : consensus humain à 89,4% pour redactions obligatoires, 47,7% pour redactions contextuelles.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.CL·18 juin

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

Étude sur l'évaluation des rapports radiologiques générés par IA. Les chercheurs montrent que les LLM existants pénalisent excessivement les reformulations inoffensives tout en détectant les erreurs cliniques. Ils entraînent des métriques légères sur Qwen3-8B et MedGemma-4B surpassant des modèles médicaux 32B, avec publication du dataset et de la métrique.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·18 juin

ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement

ScholarSum propose un cadre hiérarchique basé sur graphes de connaissances pour la résumé abstractif scientifique. Le système organise les documents en unités sémantiques cohérentes, génère un brouillon initial, puis l'affine via un processus itératif de vérification et de réécriture pour assurer cohérence logique et fidélité factuelle.

Papers RAG Raisonnement

SIG

HYP

arXiv cs.CL·18 juin

Approximate Structured Diffusion for Sequence Labelling

Nouvelle approche combinant diffusion et CRF pour le sequence labelling en NLP. La méthode conditionne un CRF sur la séquence complète de labels (bruitée), contournant les limitations de portée des CRF classiques. Résultats : réduction d'erreur de 16.5% sur le POS-tagging.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

Gaussian Mixture Attention (GMA) remplace l'attention standard par un routage probabiliste via K composantes gaussiennes apprises. Queries et keys sont mappées à des vecteurs de responsabilité dans un espace latent partagé. GMA évite la matrice N×N explicite et réduit la complexité mémoire à O(NK) au lieu de O(N²). Compétitif sur classification long-contexte, mais derrière SDPA et Mamba sur WikiText-103.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

Artemis: Anatomy-Resolved inTervention for Eliminating Multimodal NeuroImage confounderS

Artemis est un framework causal pour les graphes de neurones qui traite les biais démographiques (âge, sexe) dans l'imagerie cérébrale multimodale (fMRI + DTI). La méthode applique des interventions causales au niveau de chaque région cérébrale pour apprendre des représentations invariantes. Testée sur ADNI, OASIS et HCP, elle améliore les diagnostics de maladie et la classification.

Papers Raisonnement Alignement

SIG

HYP

arXiv cs.LG·18 juin

Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds

Nouvelle mesure de complexité géométrique appelée Fisher width, analogue de la Gaussian width sur les variétés statistiques. Utilise la métrique d'information de Fisher au lieu de la géométrie euclidienne pour capturer la courbure statistique locale. Développe la théorie fondamentale avec bornes de généralisation et estimateurs calculables, validés sur MNIST.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·18 juin

SAGE: Retain-Aware Post-Hoc Sanitization of Final Unlearning Vector

SAGE est une méthode post-hoc pour améliorer l'oubli sélectif dans les LLM. Elle corrige les vecteurs de mise à jour finaux en supprimant les composantes nuisant à la rétention, sans relancer le pipeline d'oubli original. Testée sur plusieurs méthodes et échelles, SAGE réduit le compromis oubli-rétention.

Alignement Papers

SIG

HYP

arXiv cs.LG·18 juin

Ghost Attractor Networks: Basin-Structured Dynamical Decoders for Closed-Loop Sequential Generation

Ghost Attractor Networks propose un décodeur dynamique efficace pour la génération séquentielle en robotique. Avec 2,3M paramètres, il égale la précision d'un Diffusion Transformer de 1,07B paramètres (462× moins de paramètres, 32× plus rapide). Sur LIBERO-10, le conditionnement de phase améliore le taux de succès de 13,5 points vs MLP.

Génération de code Robotique Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

A Survey on Data-Driven Models for Soil Moisture Regression and Classification

Enquête sur les modèles IA pour l'estimation de l'humidité du sol. Comparaison de cinq catégories : séries temporelles statistiques, géostatistique, ML classique, deep learning et méthodes bayésiennes. Les approches data-driven offrent une alternative flexible aux modèles physiques coûteux en calcul.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

Why SWAVE May Not Be All You Need:A Concept-Evolution Retrospective on Complex-Valued Recurrent Language Models

SWave est un modèle de langage récurrent à valeurs complexes (169M paramètres) entraîné sur FineWeb-Edu. L'article documente son évolution sur trois phases, identifiant des défaillances structurelles (cos-domination collapse) et validant les composants critiques (ComplexNorm, Wave Propagation Scan). PPL final : 22.0 à l'étape 89,861.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy

Étude sur le grokking (transition retardée de la mémorisation à la généralisation). Les auteurs montrent que la norme des poids ne contrôle pas directement le délai de grokking, mais agit via l'échelle des logits. En fixant la norme et variant la température de sortie, ils retrouvent 85% du délai en ajustant l'échelle logit. L'effet dépend de la fonction de perte (cross-entropy vs MSE).

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Quantum Annealing Enhanced Reinforcement Learning for Accurate Remaining Useful Lifetime Prediction

Framework QAQL combinant quantum annealing et Q-learning pour prédire la durée de vie utile restante (RUL) en maintenance prédictive. Chaque mise à jour Q-value est encodée en QUBO résolu sur D-Wave Advantage. Validé sur NASA C-MAPSS et datasets de maintenance : amélioration statistiquement significative vs baselines classiques et quantiques.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.AI·18 juin

What Must Generalist Agents Remember?

Article théorique sur la mémoire des agents généralistes. Démontre qu'un agent performant sur plusieurs domaines doit maintenir des distributions mémoire distinctes aux goulots d'étranglement observationnels. La mémoire permet la désambiguïsation de domaine, la reconstruction de dynamiques de transition et la planification.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.AI·18 juin

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

WorldLines est un benchmark pour agents incarnés sur long horizon testant la mémoire dans des environnements domestiques dynamiques. Le dataset inclut traces temporelles avec dialogues, actions, changements d'état d'objets/appareils. ObsMem, un framework de mémoire basé observateur, maintient des mémoires conscientes de la visibilité et des traces d'état pour des décisions informées.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

Generative-Model Predictive Planning for Navigation in Partially Observable Environments

BeliefDiffusion combine diffusion models et Model Predictive Control pour la navigation en environnements partiellement observables. Le framework génère des distributions de croyance multimodales et planifie des stratégies de navigation efficaces. Expériences sur cartes synthétiques : surpasse RL et autres approches génératives en taux de succès et efficacité de trajectoire.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·18 juin

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

ThinkDeception propose un cadre d'apprentissage par renforcement progressif pour la détection de tromperie multimodale interprétable. Utilisant des MLLMs, il transforme la classification binaire en processus de raisonnement explicite via Chain of Thought. VAC-GRPO avec curriculum learning stratifié en 4 niveaux de difficulté atteint SOTA sur les benchmarks.

Raisonnement Reinforcement learning Vision

SIG

HYP

arXiv cs.AI·18 juin

Analysing drivers and interdependencies in European electricity markets using XAI

Étude combinant réseaux de neurones profonds et XAI (SHAP, SSHAP) pour analyser 39 zones de soumission électriques européennes. Identifie l'énergie solaire comme facteur disproportionné de formation des prix, les prix du gaz comme moteur dominant, et les interconnexions comme révélatrices de l'interdépendance des marchés.

Évaluations Papers

SIG

HYP

arXiv cs.AI·18 juin

Human-AI Coevolution Dynamics: A Formal Theory of Social Intelligence Emergence Through Long-Term Interaction

Nouvelle théorie formelle (HACD-H) modélisant l'émergence de l'intelligence sociale dans l'interaction humain-IA long-terme. Framework unifié intégrant adaptation émotionnelle, mémoire sociale et cohérence de personnalité. Étude sur 14,700 tours de conversation révèle corrélation négative entre intelligence sociale et énergie cognitive (r=-0.391, p<0.001), avec patterns de transition développementale.

Raisonnement Agents IA Papers

SIG

HYP

arXiv cs.AI·18 juin

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Safety Reflection Pretraining intègre des réflexions de sécurité courtes dans les corpus de préentraînement pour établir l'auto-surveillance directement dans la modélisation du langage. Sur des modèles 1.7B préentraînés sur FineWeb-Edu, la méthode améliore la précision de classification de sécurité et réduit substantiellement les taux de succès des attaques en inférence et fine-tuning.

Sécurité IA Alignement Reinforcement learning

SIG

HYP

arXiv cs.AI·18 juin

NeSyCat Torch: A Differentiable Tensor Implementation of Categorical Semantics for Neurosymbolic Learning

NeSyCat Torch unifie les sémantiques neurosymboliques (classique, floue, probabiliste, neurale) sous une définition unique de la vérité paramétrée par des monades. Implémenté en PyTorch, JAX et HaskTorch, le framework interprète les symboles computationnels via réseaux de neurones. Sur MNIST addition, surpasse LTN et DeepProbLog en vitesse/précision.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·18 juin

CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

CoreMem propose une architecture mémoire pour agents dialogues personnalisés sur appareils edge (8 GB VRAM). Utilise la métrique Fisher-Rao pour la récupération (remplaçant la similarité cosinus) et la distillation de tokens guidée par Fisher pour la compression. Gains de +4.51 pp en raisonnement open-domain et +4.17 pp en raisonnement temporel sur LOCOMO et LongMemEval-S.

Agents IA RAG Embeddings

SIG

HYP

arXiv cs.CL·18 juin

Speech-Driven End-to-End Language Discrimination towards Chinese Dialects

Article proposant une approche speech-driven pour la discrimination entre dialectes chinois. Combine features MFCC, modèle HMM-DNN pour la reconnaissance vocale, attention mechanism et CNN. Évaluation sur deux corpus benchmark montre amélioration vs état de l'art.

Voix Benchmarks Papers

SIG

HYP

arXiv cs.CL·18 juin

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

RegMix-D étend RegMix en utilisant les trajectoires complètes de perte des runs proxy, pas seulement les pertes finales, pour prédire des mélanges de données optimaux à plusieurs étapes d'entraînement. Testé sur 25B tokens du Pile avec un modèle 1B, RegMix-D surpasse RegMix et DoReMi sur 13 tâches aval avec 75% moins de calcul proxy.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·18 juin

LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

Étude évaluant 42 LLMs (propriétaires et open-source) sur leur capacité à mesurer la discrimination d'items en compréhension de lecture. Les modèles échouent : corrélation de Spearman de 0,152 en prédiction directe, 0,241 en calibration CTT. Les LLMs ne capturent pas fiablement comment les items distinguent les étudiants de niveaux différents.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.CL·18 juin

Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining

ImpSH, un framework basé sur les triplets, améliore la détection de discours haineux implicite en alignant les posts avec leurs énoncés implicites et en utilisant des négatifs semi-durs bornés par le contexte. Évalué sur IHC, SBIC et DynaHate avec BERT et HateBERT, il améliore la performance cross-domain et offre une représentation plus stable que les approches contrastives supervisées standard.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.CL·18 juin

Efficient Financial Language Understanding via Distillation with Synthetic Data

Framework de distillation avec données synthétiques pour l'analyse de sentiment financier. Transfert de connaissances d'un modèle teacher instruction-tuned vers des modèles compacts. Sélection de seeds par clustering pour générer des données synthétiques via few-shot prompting. Le modèle compact surpasse le teacher sur textes complexes/bruyants avec supervision minimale.

Fine-tuning RAG Prompt engineering

SIG

HYP

arXiv cs.LG·18 juin

CODEBLOCK: Learning to Supervise Code at the Right Granularity

CodeBlock est un framework de supervision sparse pour l'entraînement de LLMs de code. Il sélectionne des blocs de code syntaxiquement cohérents plutôt que des tokens isolés, en estimant leur utilité via cross-entropy généralisée et signaux de flux de données. Sur 6 benchmarks, CodeBlock surpasse la SFT full-token en utilisant seulement 1,9% des tokens supervisés.

Génération de code Fine-tuning Papers

SIG

HYP

arXiv cs.LG·18 juin

A Link between Shock-wave Theory and Symmetry-reduced Stochastic Gradient Descent for Artificial Neural Networks

Lien mathématique établi entre la théorie des ondes de choc et la dynamique de descente de gradient stochastique symétrique pour réseaux de neurones. Après quotient des symétries et coarse-graining entropique, la dynamique effective satisfait une équation Hamilton-Jacobi visqueuse. Appliqué à MLPs, CNNs, Transformers et réseaux mean-field.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·18 juin

DRIFT: Refining Instruction Data via On-Policy Data Attribution

DRIFT affine la distribution des données d'entraînement SFT via des fonctions d'influence on-policy. La méthode utilise les rollouts du modèle comme cibles de validation pour minimiser l'écart de proximité et corriger le biais de norme de gradient. Tests sur modèles 7B montrent une amélioration du plafond de performance vs baselines.

Fine-tuning Reinforcement learning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Neural Network Implementation of the Renormalization Group for Fault Diagnosis with Class Imbalance

RGNet, une architecture neuronale basée sur le groupe de renormalisation, traite le déséquilibre de classes et le bruit multidimensionnel pour le diagnostic de défauts. Le modèle compresse hiérarchiquement l'espace des features et capture détails locaux et patterns globaux. Tests sur dataset AI4I imbalancé.

Papers Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

ThousandWorlds: A benchmark for climate emulation of potentially habitable exoplanets

ThousandWorlds est un benchmark ML pour l'émulation climatique d'exoplanètes potentiellement habitables. Le dataset contient ~1800 simulations de 5 modèles climatiques globaux mappant 8 paramètres planétaires à des champs atmosphériques 3D. Trois sous-ensembles progressifs et deux protocoles d'évaluation testent 7 baselines ; les méthodes GP surpassent le deep learning standard.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

Task-Restricted Symmetries in Recurrent Weight Space

Étude des redondances fonctionnelles dans les RNNs à une couche via décomposition de Schur. Les auteurs identifient des couplages non-normaux supprimables sans perte majeure sur certaines tâches (copie, flip-flop, génération sinusoïdale), révélant des invariances fonctionnelles approximatives spécifiques à chaque tâche plutôt que des symétries universelles.

Papers Raisonnement

SIG

HYP