RSS

arXiv cs.LG

Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

PROPEL est un framework qui entraîne des générateurs de tâches via RL pour créer des problèmes optimaux pour l'apprentissage d'agents. Une sonde légère prédit le taux de résolution sans rollouts répétés du solveur, réduisant l'évaluation à un forward pass. Sur code et SWE, les tâches au « learnable frontier » passent de 10,1% à 20% (Qwen2.5-3B) et de 9,8% à 19,6% (Qwen3.5-27B).

Reinforcement learning Agents IA Génération de code

SIG

HYP

arXiv cs.LG·18 juin

Enhanced Graph Neural Networks using K-Hop Gaussian Diffusion

Nouvelle méthode de diffusion K-Hop Gaussian (KHG) pour améliorer les GNN. KHG prétraite les données graphiques avec une diffusion multi-hop pondérée par Gaussian, équilibrant propagation locale et globale. Surpasse message-passing standard, PPR et Heat Kernel sur benchmarks, notamment sur graphes bruyants.

Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

Gaussian Mixture Attention (GMA) remplace l'attention standard par un routage probabiliste via K composantes gaussiennes apprises. Queries et keys sont mappées à des vecteurs de responsabilité dans un espace latent partagé. GMA évite la matrice N×N explicite et réduit la complexité mémoire à O(NK) au lieu de O(N²). Compétitif sur classification long-contexte, mais derrière SDPA et Mamba sur WikiText-103.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

ASTRA: A Scalable Next-Generation ATCO Training Simulator with Autonomous Simpilots

ASTRA est un simulateur de formation pour contrôleurs aériens qui automatise les rôles de pilotes via une pipeline de reconnaissance vocale, interprétation et génération de réponses. Le système réduit le taux d'erreur de reconnaissance vocale de 107,80% à 23,45% sur l'accent singapourien, et évalue les communications radio avec scores de 91,7% (précision), 88,2% (brièveté), 86,9% (complétude).

Voix Fine-tuning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Artemis: Anatomy-Resolved inTervention for Eliminating Multimodal NeuroImage confounderS

Artemis est un framework causal pour les graphes de neurones qui traite les biais démographiques (âge, sexe) dans l'imagerie cérébrale multimodale (fMRI + DTI). La méthode applique des interventions causales au niveau de chaque région cérébrale pour apprendre des représentations invariantes. Testée sur ADNI, OASIS et HCP, elle améliore les diagnostics de maladie et la classification.

Papers Raisonnement Alignement

SIG

HYP

arXiv cs.LG·18 juin

Attribution-Guided and Coverage-Maximized Pruning for Structural MoE Compression

Méthode de compression structurelle pour modèles MoE (Mixture-of-Experts) via élagage au niveau des canaux. Utilise une approche d'attribution pour maximiser la couverture des scores de canaux. Tests sur DeepSeek et Qwen montrent 50% d'élagage structurel avec quantification 4-bit, réduction mémoire 5.27× sur Qwen3-30B-A3B.

DeepSeek Qwen Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds

Nouvelle mesure de complexité géométrique appelée Fisher width, analogue de la Gaussian width sur les variétés statistiques. Utilise la métrique d'information de Fisher au lieu de la géométrie euclidienne pour capturer la courbure statistique locale. Développe la théorie fondamentale avec bornes de généralisation et estimateurs calculables, validés sur MNIST.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·18 juin

SAGE: Retain-Aware Post-Hoc Sanitization of Final Unlearning Vector

SAGE est une méthode post-hoc pour améliorer l'oubli sélectif dans les LLM. Elle corrige les vecteurs de mise à jour finaux en supprimant les composantes nuisant à la rétention, sans relancer le pipeline d'oubli original. Testée sur plusieurs méthodes et échelles, SAGE réduit le compromis oubli-rétention.

Alignement Papers

SIG

HYP

arXiv cs.LG·18 juin

Ghost Attractor Networks: Basin-Structured Dynamical Decoders for Closed-Loop Sequential Generation

Ghost Attractor Networks propose un décodeur dynamique efficace pour la génération séquentielle en robotique. Avec 2,3M paramètres, il égale la précision d'un Diffusion Transformer de 1,07B paramètres (462× moins de paramètres, 32× plus rapide). Sur LIBERO-10, le conditionnement de phase améliore le taux de succès de 13,5 points vs MLP.

Génération de code Robotique Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

A Survey on Data-Driven Models for Soil Moisture Regression and Classification

Enquête sur les modèles IA pour l'estimation de l'humidité du sol. Comparaison de cinq catégories : séries temporelles statistiques, géostatistique, ML classique, deep learning et méthodes bayésiennes. Les approches data-driven offrent une alternative flexible aux modèles physiques coûteux en calcul.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

Why SWAVE May Not Be All You Need:A Concept-Evolution Retrospective on Complex-Valued Recurrent Language Models

SWave est un modèle de langage récurrent à valeurs complexes (169M paramètres) entraîné sur FineWeb-Edu. L'article documente son évolution sur trois phases, identifiant des défaillances structurelles (cos-domination collapse) et validant les composants critiques (ComplexNorm, Wave Propagation Scan). PPL final : 22.0 à l'étape 89,861.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Self-CTRL: Self-Consistency Training with Reinforcement Learning

Self-CTRL optimise la cohérence entre les auto-explications et le comportement des modèles de langage via apprentissage par renforcement. Sur un task de raisonnement probabiliste, la méthode améliore la corrélation R² de 0.24 à 0.64. En IA constitutionnelle, elle augmente la prédiction des refus de 36% à 92% et réduit le taux d'échec HarmBench de 15.0% à 0.5%.

Reinforcement learning Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·18 juin

SCOPE-FL: A Strategy-proof Chain-based Optimal pareto efficient Federated Learning System

SCOPE-FL propose un système de Federated Learning hiérarchique utilisant l'algorithme Top Trading Cycle pour la sélection de clients. Le mécanisme garantit l'efficacité de Pareto et la stratégie-proofness, avec distribution de récompenses via approximation Shapley et exécution blockchain. Évaluation sur MNIST, Fashion-MNIST, CIFAR-10 montre amélioration vs DA, IAS.

SIG

HYP

arXiv cs.LG·18 juin

P$^2$CE: Model-Agnostic Plausible Pareto-Optimal Counterfactual Explanations

P²CE génère des explications contrefactuelles Pareto-optimales plausibles pour les modèles ML. L'algorithme utilise une forêt d'isolation et les valeurs SHAP pour équilibrer faisabilité, plausibilité et efficacité computationnelle. Évalué sur 3 datasets, il surpasse les méthodes existantes en qualité et vitesse.

Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

Nouvel ordonnanceur pour l'inférence LLM qui remplace la prédiction de longueur par des signaux statistiques légers et l'ajustement dynamique de priorités. Réduit P99 TTLT de 35-50% vs SRPT avec connaissance parfaite de longueur, et TTFT de 34-47% sur traces production et open-source.

Benchmarks Infrastructure Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

TMR-GGNN: Credit Card Fraud Detection based on Time-Aware Multi-Relational Guided Graph Neural Network

TMR-GGNN, un réseau de neurones graphiques multi-relationnel sensible au temps, détecte la fraude par carte bancaire en modélisant les interactions hétérogènes entre clients, commerçants, appareils et adresses IP. Le modèle combine attention relationnelle temporelle, apprentissage contrastif et une fonction de perte composite (InfoNCE + Focal Loss) pour gérer les données déséquilibrées et réduire les faux négatifs.

Reinforcement learning

SIG

HYP

arXiv cs.LG·18 juin

What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy

Étude sur le grokking (transition retardée de la mémorisation à la généralisation). Les auteurs montrent que la norme des poids ne contrôle pas directement le délai de grokking, mais agit via l'échelle des logits. En fixant la norme et variant la température de sortie, ils retrouvent 85% du délai en ajustant l'échelle logit. L'effet dépend de la fonction de perte (cross-entropy vs MSE).

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Structured Representation Learning with Locally Linear Embeddings and Adaptive Feature Fusion

Framework RL inspiré par les neurosciences qui sépare les features dynamiques et récompense via locally linear embeddings (LLE) et fusionne adaptivement les représentations par mécanisme d'attention. Améliore l'efficacité d'apprentissage sur benchmarks comparé aux approches RL conventionnelles.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Quantum Annealing Enhanced Reinforcement Learning for Accurate Remaining Useful Lifetime Prediction

Framework QAQL combinant quantum annealing et Q-learning pour prédire la durée de vie utile restante (RUL) en maintenance prédictive. Chaque mise à jour Q-value est encodée en QUBO résolu sur D-Wave Advantage. Validé sur NASA C-MAPSS et datasets de maintenance : amélioration statistiquement significative vs baselines classiques et quantiques.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.LG·18 juin

PSyGenTAB: A Privacy-Preserving Framework for Synthetic Clinical Tabular Data Generation via Constrained Optimization

PSyGenTAB est un framework de génération de données synthétiques cliniques qui formule le problème comme une optimisation contrainte via la méthode du Lagrangien augmenté. Le système intègre des contraintes de confidentialité directement dans l'entraînement pour préserver les relations inter-variables cliniques et les patterns de classes minoritaires, tout en maintenant l'utilité des données pour l'IA médicale.

Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

CODEBLOCK: Learning to Supervise Code at the Right Granularity

CodeBlock est un framework de supervision sparse pour l'entraînement de LLMs de code. Il sélectionne des blocs de code syntaxiquement cohérents plutôt que des tokens isolés, en estimant leur utilité via cross-entropy généralisée et signaux de flux de données. Sur 6 benchmarks, CodeBlock surpasse la SFT full-token en utilisant seulement 1,9% des tokens supervisés.

Génération de code Fine-tuning Papers

SIG

HYP

arXiv cs.LG·18 juin

A Link between Shock-wave Theory and Symmetry-reduced Stochastic Gradient Descent for Artificial Neural Networks

Lien mathématique établi entre la théorie des ondes de choc et la dynamique de descente de gradient stochastique symétrique pour réseaux de neurones. Après quotient des symétries et coarse-graining entropique, la dynamique effective satisfait une équation Hamilton-Jacobi visqueuse. Appliqué à MLPs, CNNs, Transformers et réseaux mean-field.

Papers Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·18 juin

DRIFT: Refining Instruction Data via On-Policy Data Attribution

DRIFT affine la distribution des données d'entraînement SFT via des fonctions d'influence on-policy. La méthode utilise les rollouts du modèle comme cibles de validation pour minimiser l'écart de proximité et corriger le biais de norme de gradient. Tests sur modèles 7B montrent une amélioration du plafond de performance vs baselines.

Fine-tuning Reinforcement learning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

Les autoencodeurs creux (SAE) décomposent les activations en features interprétables, mais une étude montre que bloquer une feature « dangereuse » ne supprime pas le comportement : celui-ci peut se rétablir via d'autres chemins résiduels. Même avec intervention active, 95,8% de récupération du comportement est possible en refusal-steering, révélant un écart entre contrôle des features et contrôle comportemental.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Neural Network Implementation of the Renormalization Group for Fault Diagnosis with Class Imbalance

RGNet, une architecture neuronale basée sur le groupe de renormalisation, traite le déséquilibre de classes et le bruit multidimensionnel pour le diagnostic de défauts. Le modèle compresse hiérarchiquement l'espace des features et capture détails locaux et patterns globaux. Tests sur dataset AI4I imbalancé.

Papers Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

ThousandWorlds: A benchmark for climate emulation of potentially habitable exoplanets

ThousandWorlds est un benchmark ML pour l'émulation climatique d'exoplanètes potentiellement habitables. Le dataset contient ~1800 simulations de 5 modèles climatiques globaux mappant 8 paramètres planétaires à des champs atmosphériques 3D. Trois sous-ensembles progressifs et deux protocoles d'évaluation testent 7 baselines ; les méthodes GP surpassent le deep learning standard.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

LLMZero utilise des agents LLM avec recherche arborescente pour découvrir des stratégies d'entraînement RL adaptatif. Le système identifie que les paramètres de capacité augmentent monotoniquement tandis que les paramètres de régularisation oscillent. Sur 4 tâches GRPO, les stratégies découvertes surpassent le modèle de base de 9-140% et la recherche en grille de 6-15%.

Reinforcement learning Agents IA Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

Measurement noise limits the advantage of nonlinear models over linear models in biomedical prediction

Une étude arXiv montre que sur données biomédicales tabulaires, le bruit de mesure limite l'avantage des modèles non-linéaires (réseaux profonds, gradient boosting) sur la régression linéaire. Les interactions de degré k sont atténuées par la k-ième puissance de la fiabilité des features, tandis que la partie linéaire ne l'est qu'une fois. Analyse de 140 tâches UK Biobank confirmant cette signature du bruit.

Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·18 juin

A Cross-Model VLM-Judge Protocol for Single-Image 3D Mesh Quality (and Why Cheap Proxies Fall Short)

Protocole d'évaluation pour maillages 3D générés à partir d'images uniques utilisant des juges VLM (vision-language models). Les auteurs montrent que les proxies bon marché (similarité CLIP, statistiques de validité géométrique) ne corrèlent pas avec la qualité perçue. Leur protocole VLM avec correction de biais de position atteint Cohen's kappa = 0.66 entre deux familles de juges indépendantes.

Vision Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·18 juin

Task-Restricted Symmetries in Recurrent Weight Space

Étude des redondances fonctionnelles dans les RNNs à une couche via décomposition de Schur. Les auteurs identifient des couplages non-normaux supprimables sans perte majeure sur certaines tâches (copie, flip-flop, génération sinusoïdale), révélant des invariances fonctionnelles approximatives spécifiques à chaque tâche plutôt que des symétries universelles.

Papers Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

The Illusion of Improvement: Reject Inference Strategies in Credit Scoring

Les méthodes de reject inference utilisées en scoring crédit pour corriger le biais de survie masquent un problème structurel : l'accuracy peut s'améliorer tandis que la capacité à rejeter les défaillants s'effondre. Les auteurs proposent une stratégie d'exploration contrôlée (approuver 2-5% des candidats rejetés) pour diagnostiquer cette dégradation sans hypothèses statistiques fortes.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.LG·18 juin

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

L'étude montre que l'overtraining en SFT peut inverser le classement des modèles lors du fine-tuning RLVR. Sur Qwen2.5-Coder-3B, l'augmentation de la profondeur SFT élève pass@1 pré-RL mais réduit pass@10 GRPO de 0.806 à 0.481. L'entropie pré-RL corrèle positivement avec les résultats RLVR (ρ=+0.69). Un diagnostic deux étapes basé sur l'entropie peut identifier les checkpoints à risque.

Reinforcement learning Fine-tuning Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

Beyond AHI: An Interpretable Causal-Discovery-Guided Framework for Sleep Recovery in Connected Health

Framework causal pour scorer la récupération du sommeil à partir de polysomnographie multimodale. Utilise DAG learning sur deux cohortes (MESA n=1540, MrOS n=825) pour identifier 5 domaines physiologiques (charge respiratoire, hypoxie, fragmentation, architecture, régulation autonome). Le Sleep Recovery Score (SRS) obtient 2.5× meilleure corrélation avec la récupération perçue que l'AHI classique.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Sum-of-Squares Degree Barriers for the Reweighted-Hinge Method in Robust Halfspace Learning: A Christoffel-Function Characterization

Article théorique sur les barrières de degré Sum-of-Squares pour l'apprentissage robuste de demi-espaces avec bruit malveillant. La fonction de Christoffel caractérise exactement la corruption qu'un certificat de degré borné ne peut pas éliminer. Démontre un compromis marge-degré et un algorithme de degré-2t atteignant la frontière η^(1-1/2t).

Papers Raisonnement Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

Rift: A Conflict Signature for Deception in Language Models

Des chercheurs identifient une signature interne de la tromperie dans les modèles de langage : les réponses mensongères affichent une rang résiduel 2.1-2.3x plus élevé que les réponses naïvement fausses. Cette signature détecte la déception avec 100% de précision sur GPT-2, Qwen2.5 et Phi-3, et transfère zero-shot entre familles de modèles et langues (AUC 0.933-1.0).

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Uncertainty Quantification of Engineering Structures by Polynomial Chaos Expansion and Multivariate Active Learning

Méthode d'échantillonnage adaptatif séquentiel pour construire des modèles de substitution par expansion en chaos polynomial, optimisée pour plusieurs quantités d'intérêt simultanées. L'approche équilibre exploration de l'espace d'entrée et exploitation de la variance agrégée, améliorant la précision et la stabilité des surrogates par rapport à l'échantillonnage Latin Hypercube.

Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Rethinking Groups in Critic-Free RLVR

Article arXiv sur l'apprentissage par renforcement sans critique pour les LLM. Les auteurs remettent en question le rôle des « groupes » de rollouts dans les méthodes existantes et proposent le « negative token filtering » pour permettre un entraînement stable avec un seul rollout, améliorant les performances sur les tâches d'agents.

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.LG·17 juin

ProCUA-SFT Technical Report

ProCUA-SFT est un dataset de 3.1M échantillons SFT générés automatiquement à partir de 93K trajectoires synthétiques couvrant 2,484 combinaisons d'applications. Fine-tuner UI-TARS 7B sur ProCUA-SFT atteint 45.0% sur OSWorld, soit +18.7 points vs le modèle de base et +35% vs AgentNet. Le pipeline utilise Kimi-K2.5 comme générateur de tâches, juge et exécuteur.

Agents IA Benchmarks Fine-tuning

SIG

HYP

arXiv cs.LG·17 juin

The Critical Role of Model Selection in Causal Inference: A Comparative Analysis of Classification Models within the InferBERT Framework for Pharmacovigilance

InferBERT combine transformers et Do-calculus pour détecter les effets indésirables causaux en pharmacovigilance. Étude comparative sur AILF et TRAM : BioBERT surpasse XGBoost, ALBERT et Med-LLaMA. Conclusion : le pré-entraînement spécialisé (biomedical) prime sur la taille du modèle.

Benchmarks Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

MODE: Modality-Decomposed Expert-Level Mixed-Precision Quantization for MoE Multimodal LLMs

MODE est une méthode de quantification mixte-précision au niveau expert pour les modèles multimodaux MoE. Elle décompose la fréquence de sélection des experts par modalité (vision/texte) et filtre les tokens visuels redondants pour corriger les biais d'estimation. Résultats : perte de performance <2.9% en W3A16.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Towards Fast GNN Surrogates for CO2 Migration in Complex Geological Formations

Surrogate GNN pour prédire la migration de CO₂ en formations géologiques complexes. Modèle entraîné sur le benchmark SPE11A avec mécanisme de passage de messages anisotrope capturant le transport directionnel. Produit des prévisions compétitives de saturation gazeuse et densité de phase liquide sur horizons de prévision étendus.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

PowerOPD: Stabilizing On-Policy Distillation with Bounded Power Transformation

PowerOPD stabilise la distillation on-policy pour LLM en remplaçant la récompense log-ratio non-bornée par une transformation Box-Cox paramétrée. Sur 6 benchmarks de raisonnement mathématique avec Qwen3, gains de +6.37 Avg@8/+5.71 Pass@8 vs OPD vanilla, réduction de 59.2% du temps et 23.1% de mémoire GPU.

Fine-tuning Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Counterfactual Optimization of Baseball Pitch Sequences and Estimation of Its Impact on Season-Level Statistics

Étude arXiv utilisant un modèle Transformer sur données MLB Statcast pour optimiser les séquences de lancers au baseball. Analyses contrefactuelles montrant que l'optimisation des lancers finaux et préparatoires peut améliorer les statistiques saisonnières de plus de 1.0 K/9. Insights pratiques sur les emplacements efficaces par bande de vélocité et l'importance du contrôle.

Papers Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

MM++: Unsupervised Scale-Invariant Multilayer OOD Detection via Top-K Gated Feature Fusion

MM++ est une méthode non-supervisée et post-hoc pour la détection d'anomalies (OOD). Elle fusionne les couches intermédiaires sélectionnées par entropie avec la représentation finale via une matrice de covariance régularisée (Ledoit-Wolf), sans données auxiliaires ni modification architecturale.

Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

Discrete Autoregressive Transformer for Generative Mechanism Synthesis

Transformer autorégressif discret pour la synthèse de mécanismes. Modèle de séquence conditionnelle avec VAE latent et quantization de coordonnées en tokens. Entraîné sur >1M mécanismes avec distance Chamfer et DTW. Distance Chamfer moyenne 0.0132, DTW 0.153 sur tests.

Génération de code Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Amortized Probabilistic Retrieval of Atmospheric CO2 from OCO-2 Spectra Using Deep Learning with Laplace Approximations and Normalizing Flows

Framework deep learning pour estimer le CO2 atmosphérique à partir des spectres OCO-2 de la NASA. Utilise approximations de Laplace et normalizing flows pour quantifier les incertitudes. Inférence 100× plus rapide que les algorithmes opérationnels, avec meilleure calibration des posteriors non-gaussiens.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Memory-Efficient Meta-Reinforcement Learning for Adaptive Safety-Critical Control in Adversarial Spacecraft Proximity Operations

Étude comparative de trois architectures récurrentes (LSTM, GRU, Mamba) et deux algorithmes (PPO, SAC) pour l'apprentissage par renforcement méta appliqué aux fonctions de barrière de contrôle (ICCBF) en opérations de proximité spatiale. Mamba + PPO surpasse les autres configurations en sécurité, complétude des tâches et économies de carburant, même en présence de comportements adversariaux.

Reinforcement learning Sécurité IA Robotique

SIG

HYP

arXiv cs.LG·17 juin

MorphStrata: Layer-Specific Perturbations for Generating Morphence Students in Time-Series Moving Target Defense

MorphStrata améliore la défense Moving Target Defense pour les modèles de prévision de séries temporelles en injectant du bruit stochastique sélectif par couche. Testé sur Transformer avec attaques FGSM, BIM et PGD, l'approche réduit l'RMSE adversarial jusqu'à 97,97% sur données AEP avec surcoût d'entraînement <1%.

Benchmarks Sécurité IA Papers

SIG

HYP

arXiv cs.LG·17 juin

Credibility-Weighted Pricing of Autonomous Vehicle Liability Under Operational Design Domain Shift

Framework bayésien hiérarchique pour tarifier la responsabilité civile des véhicules autonomes face aux changements de domaine opérationnel. Testé sur 648 accidents Waymo vérifiés (4 villes US, 116M miles) : poids de crédibilité modérés (0.12-0.46), pooling partiel surpasse l'absence de pooling, avantage du kernel détectable à ~12 villes déployées.

Sécurité IA Benchmarks Régulation

SIG

HYP

arXiv cs.LG·17 juin

Operator Boosting Produces Pareto-Efficient PDE Surrogates

Operator Boosting construit des surrogates compacts de réseaux de neurones pour résoudre les EDPs via apprentissage résiduel par étapes. Testé sur FNO, DeepONet et CNO sur 30 benchmarks (PDEBench, APEBench), la méthode réduit les paramètres de 72-95% tout en améliorant la précision sur 21 paires dataset-architecture et obtient des gains Pareto sur 7/10 benchmarks EDPs.

Papers Benchmarks Génération de code

SIG

HYP