RSS

arXiv cs.LG

https://arxiv.org/list/cs.LG/recent

arXiv cs.LG·

Balancing Learning Rates Across Layers: Exact Two-Step Dynamics and Optimal Scaling in Linear Neural Networks

Étude théorique des taux d'apprentissage optimaux dans les réseaux de neurones linéaires à 2-3 couches. Dérivation de formules fermées exactes pour les gradients et la perte après 1-2 étapes de descente de gradient. Résultat clé : les taux d'apprentissage inégaux minimisent la perte en phase initiale, tandis que les taux égaux deviennent optimaux après. Code disponible.

PapersReinforcement learning
SIG
75
HYP
15
arXiv cs.LG·

Large-scale Uncertainty Quantification for Latent Variable Models Using Subsampling Markov Chain Monte Carlo

Théorie asymptotique pour SGLD-Gibbs, combinant dynamique de Langevin stochastique et mises à jour Gibbs pour l'inférence bayésienne dans les modèles à variables latentes. Les auteurs dérivent des limites de diffusion-saut et proposent un guide de tuning d'hyperparamètres garantissant une quantification d'incertitude statistiquement valide.

Reinforcement learningRaisonnementÉvaluations
SIG
72
HYP
15
arXiv cs.LG·

InfoAtlas: A Foundation Model for Zero-Shot Statistical Dependence Estimate

InfoAtlas est un modèle fondation capable d'estimer l'information mutuelle entre variables haute-dimensionnelles en une seule passe forward, sans optimisation itérative. Préentraîné sur données synthétiques, il atteint 100× d'accélération par rapport aux estimateurs neuraux classiques tout en maintenant la précision et généralise à des scénarios réels complexes.

PapersBenchmarksRaisonnement
SIG
72
HYP
28
arXiv cs.LG·

Agentic Transformers Provably Learn to Search via Reinforcement Learning

Étude théorique montrant comment les transformers apprennent à implémenter une recherche en arbre (DFS) via RL. Un transformer à deux têtes d'attention émerge naturellement d'un entraînement par gradient de politique sur des arbres stochastiques, sans démonstrations expertes. Le modèle généralise à des profondeurs non vues et adapte sa stratégie selon les distributions d'objectifs.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

Accurate Large-sample Uncertainty Quantification using Stochastic Gradient Markov Chain Monte Carlo

Nouvel article arXiv proposant des approximations discrètes pour SG(L)D avec et sans momentum, permettant des prédictions précises de la covariance stationnaire et du temps d'autocorrélation intégré. Bornes d'erreur non-asymptotiques pour l'ajustement pratique et la quantification d'incertitude, validées sur modèles mal spécifiés et grands batch sizes.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
15
arXiv cs.LG·

Quantized Reasoning Models Think They Need to Think Longer, but They Do Not

La quantification post-entraînement (PTQ) réduit la précision des modèles de raisonnement et augmente la longueur des chaînes de pensée. 52% des erreurs proviennent de réponses correctes trouvées mais non finalisées. Une pénalité logit sans entraînement sur les marqueurs de surréflexion ("wait", "but") réduit la longueur de 12-23% tout en préservant la précision sur 5 modèles (1.5B-32B).

RaisonnementFine-tuningBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Les réseaux de tenseurs non-linéaires automatiquement différentiables (ADNTNs) compressent les poids de réseaux de neurones via des tenseurs cœurs entraînés par différenciation automatique. Testés sur AlexNet et VGG-16, ils atteignent des ratios de compression de 2000× à 77000× par couche avec précision préservée ou améliorée.

Fine-tuningPapersBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting

RAFT est une méthode de fine-tuning domaine en deux étapes qui réduit l'oubli catastrophique. Elle raffine les données via réécriture auto-conditionnée et fusion de réponses, puis applique une distillation on-policy où le modèle original fournit des cibles souples sur les trajectoires générées. Sur 5 domaines, RAFT améliore la précision domaine de 23,2% vs SFT standard et récupère 18,2% de dégradation sur MS-Bench.

Fine-tuningReinforcement learningPapers
SIG
78
HYP
15
arXiv cs.LG·

Beyond Augmentation: Score-Guided Pathological Prior for EEG-based Depression Detection

Nouvelle approche pour détecter la dépression majeure à partir d'EEG sans augmentation de données. La méthode SGC (Score-Guided Classification) utilise un réseau génératif non supervisé pour modéliser les anomalies pathologiques comme prior, fusionné avec les représentations profondes. Un module d'adaptation spatiale gère l'hétérogénéité des canaux multi-centres. Validation sur Mumtaz2016 et MODMA.

PapersÉvaluationsVision
SIG
72
HYP
28
arXiv cs.LG·

AI-Guided Design and Optimization of Graphite-Based Anodes via Iterative Experimental Feedback

Workflow IA itératif pour optimiser les anodes en graphite via apprentissage séquentiel et retours expérimentaux. Plateforme Citrine utilisée pour générer modèles de substitution et affiner contraintes de faisabilité. Résultats : fiabilité de fabrication passée de défaillances fréquentes à 100%, capacité ≥350 mAh/g augmentée de 28,4% à 84,8%, rétention de capacité de 42,1% à 97,3%.

Reinforcement learningBenchmarksOutils
SIG
75
HYP
15
arXiv cs.LG·

Learning to Construct Practical Agentic Systems

Papier arXiv proposant des approches pour concevoir des systèmes agentic LLM pratiques. Framework avec « pseudo-tools » appelant récursivement les LLM sur contexte restreint. Les workflows fixes hand-engineered sont moins chers et plus précis que les workflows planifiés dynamiquement. Méthodes d'apprentissage pour optimiser pseudo-tools et workflows fixes, surpassant les agents hand-engineered.

Agents IAMulti-agentsRaisonnement
SIG
75
HYP
15
arXiv cs.LG·

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization

Étude de la généralisation retardée (grokking) lors du pré-entraînement de modèles de langage. Via un cadre basé sur l'exposition et les paires minimales BLiMP, les auteurs observent une généralisation différée sur cinq phénomènes grammaticaux. Les vecteurs de concepts grammaticaux deviennent plus prédictifs après généralisation et occupent un sous-espace de dimension supérieure.

PapersRaisonnementÉvaluations
SIG
72
HYP
18
arXiv cs.LG·

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate

ARCA propose une nouvelle méthode d'attribution de crédit au niveau des tokens pour l'apprentissage par renforcement des LLM. Elle résout la dégénérescence des signaux intrinsèques (surprisal, entropy reduction, policy divergence) sous LoRA en mesurant directement les changements cachés de l'adaptateur via la norme L2 du résidu. Testée sur MATH/Qwen3-1.7B avec GRPO, ARCA évite la concentration pathologique des poids.

Reinforcement learningFine-tuningRaisonnement
SIG
75
HYP
15
arXiv cs.LG·

When Softmax Fails at the Top: Extreme Value Corrections for InfoNCE

InfoNCE, l'objectif standard du contrastive learning, repose sur une hypothèse statistique mal alignée avec les embeddings normalisés modernes. Les auteurs proposent WEINCE, une modification simple utilisant la théorie des valeurs extrêmes et des statistiques batch en ligne pour corriger les logits softmax, sans paramètres supplémentaires. Améliorations consistantes sur 5 benchmarks vision.

PapersBenchmarksEmbeddings
SIG
72
HYP
15
arXiv cs.LG·

FLaG: Fine-Grained Latent Grouping for Hallucination Detection

FLaG est un framework léger de détection d'hallucinations dans les LLM qui modélise la fiabilité via des groupes de preuves latentes. Utilisant un mécanisme de routage basé sur l'énergie et une agrégation log-marginale, il capture des patterns hétérogènes d'hallucinations sans modifier le modèle sous-jacent. Résultats SOTA sur plusieurs benchmarks avec transfert robuste entre datasets.

Sécurité IAÉvaluationsRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

Rethinking the Role of Temperature in Large Language Model Distillation

Étude arXiv sur le rôle de la température dans la distillation de LLM. Les auteurs montrent que la divergence KL avant (FKL) surpasse la divergence KL inverse (RKL) à températures élevées, contrairement aux conclusions empiriques antérieures qui omettaient ce paramètre. La température enrichit FKL avec des signaux de tokens non-dominants tandis qu'elle rescale seulement les gradients RKL.

Fine-tuningPapersBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

Adversarially Robust Control of Conditional Value-at-Risk via Rockafellar-Uryasev Conformal Inference

Cadre en ligne sans hypothèse distributive pour contrôler la Conditional Value-at-Risk (CVaR) en environnements non-stationnaires et adversariels. Combine inférence conforme, apprentissage en ligne et représentation variationnelle de Rockafellar-Uryasev. Garanties de sécurité prouvées pour risques de queue non-linéaires. Applications : gestion de portefeuille et atténuation de toxicité LLM.

PapersSécurité IARaisonnement
SIG
72
HYP
15
arXiv cs.LG·

KG-Guard: Graph-Based Hallucination Detection for Knowledge Base Question Answering

KG-Guard détecte les hallucinations dans les systèmes de réponse à questions sur bases de connaissances (KBQA) en utilisant un graphe augmenté et un encodeur léger. Le modèle atteint F1 de 82.0–87.4 sur WebQSP/ComplexWebQuestions avec 305× moins de paramètres que les baselines, et améliore les performances KBQA de 13–14.5 points F1 en retour itératif.

RaisonnementÉvaluationsRAG
SIG
78
HYP
15
arXiv cs.LG·

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Étude de l'efficacité et l'efficience du tool-calling dans les agents LLM. Les auteurs montrent que les pipelines d'évaluation sont sensibles à des choix mineurs (seed, prompt système, templates multi-tours) affectant la fiabilité des classements. Ils identifient deux sources de gaspillage computationnel en RL et proposent deux techniques d'accélération sans dégradation de performance.

Agents IAReinforcement learningÉvaluations
SIG
78
HYP
15
arXiv cs.LG·

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

FoLoRA, un framework d'optimisation conscient de l'oubli, adapte les modèles de fondation via quotient de Rayleigh généralisé. Il équilibre performance sur tâche cible et préservation des capacités préentraînées en pénalisant les directions d'adaptation à faible utilité relative à l'oubli. Testé sur adaptation mathématique, code et suivi d'instructions.

Fine-tuningPapersAlignement
SIG
72
HYP
15
arXiv cs.LG·

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

Benchmark unifié Gait2Hip-60 comparant LSTM, Transformer et Mamba pour prédire les forces musculaires et moments articulaires de la hanche à partir de la cinématique de marche. Transformer surpasse les autres modèles (R²=0.819 pour les forces, R²=0.862 pour les moments). Validation externe sur 9 patients atteints de nécrose fémorale montre une généralisation modérée (R²=0.537-0.569).

BenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.LG·

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Étude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.

PapersSécurité IAAlignement
SIG
82
HYP
15
arXiv cs.LG·

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

NumLeak mesure la mémorisation de benchmarks publics dans les LLM frontier. Les modèles rappellent les données Fama-French (r=0.97-0.99), chômage US et température NOAA avec haute fidélité. Sur données récentes non vues, le taux de parsing chute à 21-57% mais r reste ~0.99 pour les mois répondus. Une défense prompt-système bloque 99.8% des attaques.

BenchmarksÉvaluationsSécurité IA
SIG
75
HYP
25
arXiv cs.LG·

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

LongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.

Agents IABenchmarksÉvaluations
SIG
82
HYP
15
arXiv cs.LG·

Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents

Un nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.

BenchmarksÉvaluationsAgents IA
SIG
82
HYP
18
arXiv cs.LG·

VeriGate: Verifier-Gated Step-Level Supervision for GRPO

VeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.

RaisonnementReinforcement learningPapers
SIG
82
HYP
18
arXiv cs.LG·

DisjunctiveNet: Neural Symbolic Learning via Differentiable Convexified Optimization Layers

DisjunctiveNet propose une méthode neuro-symbolique pour intégrer des contraintes logiques et linéaires mixtes directement dans les réseaux de neurones via des couches d'optimisation différentiables. Utilisant des relaxations convexes hiérarchiques, le framework garantit la satisfaction exacte des règles tout en maintenant la performance prédictive sur des données réelles.

RaisonnementPapers
SIG
75
HYP
15
arXiv cs.LG·

Graph-Conditioned Mixture of Graph Neural Network Experts for Traffic Forecasting

GC-MoE est un framework mixture-of-experts graph-conditionné pour la prévision de trafic spatio-temporelle. Il assigne à chaque nœud une combinaison personnalisée d'experts GNN gelés basée sur la topologie du graphe et les données récentes. Entraîné sur PEMS04, PEMS07, METR-LA et PEMS-BAY, le modèle améliore MAE avec seulement ~17K paramètres entraînables sur 1.5M poids gelés.

BenchmarksPapers
SIG
72
HYP
18
arXiv cs.LG·

Revisiting Padded Transformer Expressivity: Which Architectural Choices Matter and Which Don't

Étude théorique sur l'expressivité des transformers avec padding. Les auteurs prouvent que les transformers avec padding polynomial et précision constante équivalent à AC⁰ uniforme, tandis que ceux avec précision croissante atteignent TC⁰. La profondeur et la précision numérique sont les facteurs clés ; la largeur n'augmente pas l'expressivité au-delà du logarithmique.

RaisonnementPapersBenchmarks
SIG
75
HYP
15
arXiv cs.LG·

The Long-Term Effects of Data Selection in LLM Fine-Tuning

Étude sur les effets long terme de la sélection de données lors du fine-tuning d'LLM sur plusieurs étapes. Les auteurs montrent que les stratégies optimales à court terme (loss-based, gradient-based, diversity-based) peuvent ralentir l'apprentissage futur et augmenter l'oubli catastrophique. Ils proposent LHAS (Long-Horizon Aware Selection) pour évaluer la sélection comme intervention d'entraînement globale.

Fine-tuningBenchmarksPapers
SIG
78
HYP
15