Page 70 sur 192

ToutHaut signalRécent

7679 articles

Reconstructing and forecasting disease trajectories of patients with Alzheimer's disease using routine data in resource-constrained settings

GNOVA, un framework combinant GRU, Neural ODE et VAE, prédit les trajectoires cognitives (CDR-SB, MMSE) chez 1,727 patients Alzheimer (ADNI, 10 ans) sans imagerie. MAE de 1.35 et 2.28 respectivement. Interpolation/extrapolation et estimation d'incertitude calibrée pour contextes ressources limitées.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.LG·9 juin

Measuring Poverty and Inequality with Reduced Data: A Machine Learning Approach Using Nigerian Household Data

Étude appliquant Random Forest Recursive Feature Elimination aux données d'enquête ménagère nigériane (2018/19) pour identifier les prédicteurs minimaux de pauvreté, quintiles de bien-être et inégalités. RF-RFE atteint 90% de précision pour la pauvreté avec 5 variables de revenu, 80% pour quintiles saisonniers. Les méthodes ML réduisent les besoins en données tout en conservant l'information distributionnelle.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·9 juin

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

AGCLR (Adaptive Gated Continuous Latent Reasoning) résout le « concept bottleneck » de CoCoNuT en ajoutant un Gated Concept Stream — mémoire résiduelle persistante avec portes write/read/forget. Sur GSM8K, HotpotQA et ProsQA (GPT-2), amélioration constante avec la profondeur de raisonnement.

Raisonnement Papers GPT

SIG

HYP

arXiv cs.LG·9 juin

Outage Detection in Self-Healing Smart Grids Using Reinforcement Learning with Spectral Graph Neural Networks

Cadre de renforcement spectral pour la gestion des pannes dans les réseaux de distribution électrique. Utilise des réseaux de neurones graphiques spectraux pour apprendre une politique optimale de restauration d'énergie. Évalué sur les systèmes de test IEEE 13-bus, 34-bus et 123-bus avec performance quasi-optimale en temps réel.

Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·9 juin

A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline

Étude empirique d'agents IA généralistes sur un pipeline neuroscience (optogénétique). Les agents résolvent des étapes individuelles mais échouent sur l'end-to-end : manque de critères d'itération prédéfinis, faiblesse en jugement scientifique et interprétation visuelle. Défis absents des benchmarks : gestion des ressources, généralisation sur données massives.

Agents IA Génération de code Évaluations

SIG

HYP

arXiv cs.LG·9 juin

Emergence via Phase Transitions: Mechanism Landscapes and Universal Convergence Across Complex Systems

Framework mathématique (HEF) modélisant l'émergence comme transition de phase dans un paysage de mécanismes. Étude empirique sur 111 expériences de grokking dans transformers : convergence vers 0.9745±0.014 indépendamment de l'initialisation, pic de norme des poids avant grokking dans 92% des cas, courbes d'accuracy s'effondrant sur tanh (R²=0.93).

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·9 juin

HASA: Subnet Allocation for Compute-Constrained Model-Heterogeneous Federated Learning

HASA propose une allocation de sous-réseaux pour l'apprentissage fédéré hétérogène en ressources et données. La méthode assigne les largeurs de sous-réseaux selon des scores d'hétérogénéité calculés à partir des données locales, sous contrainte de budget de calcul fixe. Sur prédiction de titre (7 clients), HASA améliore la précision moyenne de 13,82% à 14,32% et renforce la performance des clients les plus faibles.

Benchmarks

SIG

HYP

arXiv cs.AI·9 juin

Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents

CICL, une couche de contexte décisionnelle, sélectionne et compresse les preuves pertinentes pour les agents LLM utilisant des outils. Sur 50 instances SWE-bench, le réranking Qwen3.6 améliore hit@1 de 0,58 à 0,78 et MRR@10 de 0,634 à 0,790. Le système évalue les unités par impact décisionnel, gain de résultat, nécessité et risque de transfert négatif.

Agents IA RAG Benchmarks

SIG

HYP

arXiv cs.AI·9 juin

Safety is Contextual, LLM-Judges Are Not: Navigating the Rigid Priors of Evaluators

Étude arXiv sur les limites des LLM-judges pour évaluer la sécurité à l'échelle. Les chercheurs montrent que les juges IA restent rigides face à de nouvelles définitions de sécurité ou contextes contradictoires, même quand on leur fournit des informations ou démonstrations en contexte.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·9 juin

EditSR: Enhancing Neural Symbolic Regression via Edit-based Rectification

EditSR propose un framework deux couches pour la régression symbolique neurale. Une première couche génère des expressions via décodage autorégressif, une deuxième couche (Rectifier) corrige les erreurs syntaxiques par édition pas-à-pas. Le Rectifier est préentraîné pour maintenir l'efficacité sans relancer la recherche globale. Gains significatifs sur expressions complexes.

Raisonnement Génération de code Papers

SIG

HYP

arXiv cs.AI·9 juin

Cross-LLM Consistency in Inference: Evidence from Shared Interactions

Étude arXiv montrant que différents LLMs développent des patterns d'inférence similaires malgré leurs architectures et données d'entraînement différentes. Les modèles avancés partagent davantage de patterns d'interaction pour prédire le même token. Les interactions partagées sont d'ordre inférieur avec moins d'annulation positive-négative.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.LG·9 juin

DiffoR: A Unified Continuous Generative Framework for Universal Ordinal Regression

DiffOR propose un nouveau paradigme pour la régression ordinale en la formulant comme une tâche de génération continue. Le framework utilise des modèles de diffusion pour récupérer des valeurs ordinales via débruitage itératif, avec une stratégie de double découplage (agrégation multi-échelle et perception dynamique du débruitage) pour préserver la topologie ordinale. Validé sur 12 benchmarks.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·9 juin

Zero-Shot Learning in Industrial Scenarios: New Large-Scale Benchmark, Challenges and Baseline

Nouveau dataset industriel MMIO (80K+ samples, 6 super-catégories, 18 sous-catégories) pour la détection de défauts en zéro-shot. Méthode RTVP (Refined Text-Visual Prompt) basée sur Mobile-SAM avec adaptation de domaine guidée par expert. Atteint 42.2% AP zéro-shot et 24.7% AP en scènes fermées.

Vision Benchmarks

SIG

HYP

arXiv cs.AI·9 juin

Where Instruction Hierarchy Breaks: Diagnosing and Repairing Failures in Reasoning Language Models

Étude diagnostique des défaillances dans le respect de la hiérarchie d'instructions par les modèles de raisonnement (Gemma-4-31B-IT, Qwen3.6-35B-A3B, Claude Sonnet 4.6). Framework blanc qui localise les pannes en trois catégories : identification d'instructions, résolution de conflits, réalisation de réponse. Deux mécanismes d'auto-monitoring sans entraînement réduisent les violations de 81-99%.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·9 juin

The CIFAR Synthetic Evidence Corpus for Detecting AI-Generated Evidence

CIFAR Synthetic Evidence Corpus : dataset pour détecter les documents générés par IA dans les contextes judiciaires. Couvre multiples familles de documents et stratégies de manipulation (édits mineurs à fabrication complète) avec séparation train/test au niveau source pour évaluer la généralisation réelle.

Benchmarks Sécurité IA Évaluations

SIG

HYP

arXiv cs.LG·9 juin

ScaleSweep: Accurate NVFP4 Post-Training Quantization of LLMs via Block Scale Initialization

ScaleSweep optimise la quantification NVFP4 (format FP4 4-bit supporté par hardware) des LLMs via balayage de candidats d'échelle de bloc. Théoriquement borné pour réduire l'espace de recherche, la méthode préserve >93% des performances full-precision sur Llama et Qwen en quantification end-to-end (poids, activations, KV cache, query states).

Llama Qwen Benchmarks

SIG

HYP

arXiv cs.AI·9 juin

Scaling Participation in Modular AI Systems

Nouvelle approche de systèmes IA modulaires construits par contributions décentralisées de petits modèles spécialisés. Les systèmes participatifs surpassent les LLMs monolithiques de 15,4% sur 15 tâches (raisonnement, factualité) et résolvent 15% de problèmes où tous les modèles individuels échouent.

Multi-agents Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·9 juin

SPIN: Decentralized Swarm Control via Tensorized Policy Coordination

SPIN est un framework de coordination décentralisée pour essaims multi-agents sur plateformes edge. Il modélise les topologies d'essaim comme réseaux tensoriels compressés, réduisant la complexité de O(n^m) à O(m·n·χ²). Une pipeline neuro-symbolique hybride combine encodeurs de coordination neuraux pré-entraînés hors ligne avec filtres de rééchantillonnage zéro-shot basés sur la dérivée de Radon-Nikodým.

Multi-agents Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·9 juin

MemToolAgent overview with a simple restaurant booking scenario where the agent retrieves similar memories, receives feedback on an invalid time format, and generates a reflection to update its memory

MemToolAgent améliore l'utilisation d'outils par les agents LLM via un système de mémoire structuré. Le framework extrait des expériences passées en entrées mémoire, les récupère dynamiquement et génère des réflexions basées sur les retours utilisateur. Gains de 29%, 80% et 17% sur WorkBench, NESTFUL et PEToolBench sans fine-tuning.

Agents IA Outils Benchmarks

SIG

HYP

arXiv cs.AI·9 juin

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem est un framework de compression mémoire pour LLMs audio-visuels en streaming. Il gère séparément les contextes visuels et audio via une allocation mémoire modulaire, et sélectionne les états KV informatifs par perturbation. Sur VideoMME Long, LVBench et LVOmniBench, OmniMem améliore les baselines de 2-4% en précision avec budgets mémoire identiques.

Vision Voix Raisonnement

SIG

HYP

arXiv cs.LG·9 juin

Customer Churn Prediction on Structured Data Using FT-Transformer and Stacking Ensembles

Étude arXiv proposant une architecture hybride FT-Transformer + XGBoost avec stacking pour prédire le churn client sur données structurées. Atteint 62,10% F1 et 0,861 AUC-ROC sur dataset bancaire public, surpassant MLP de 3,37 points F1. Gère le déséquilibre de classe sans suréchanillonnage synthétique.

Benchmarks Fine-tuning Évaluations

SIG

HYP

arXiv cs.LG·9 juin

Position: Genomic Model Research Must Move Beyond Anecdotal Evaluation of Interpretability Methods

Étude benchmarking montrant que les méthodes d'interprétabilité (IML) appliquées aux modèles génomiques produisent souvent des explications contradictoires et ne localisent pas les motifs régulateurs connus. Les auteurs proposent un cadre d'évaluation rigoureux inspiré des essais cliniques pour remplacer la validation anecdotique actuelle.

Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·9 juin

Contribution Weights: A Geometrical Analysis of Self-Attention Transformers

Nouvelle métrique « Contribution Weights » pour analyser les transformers au-delà des poids d'attention. Intègre magnitude des vecteurs de valeur et alignement directionnel. Surpasse les métriques basées sur l'attention pour identifier les tokens critiques. Révèle que les « attention sinks » jouent un rôle actif de suppression d'information, stabilisant les représentations.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.LG·9 juin

Shortcuts in the Tail: Debiasing via Post-Hoc Spectral Compression of Fine-Tuning Updates

Une méthode post-hoc réduit les biais de fine-tuning en tronquant la queue de la décomposition SVD des mises à jour de poids (ΔW). Testée sur 3 modèles (0.5B–7B) et 4 benchmarks, elle diminue l'écart de performance sur groupes sous-représentés jusqu'à 5× (CivilComments) avec <2pp de perte d'accuracy, sans retraining ni labels de groupe.

Fine-tuning Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·9 juin

Query Lens: Interpreting Sparse Key-Value Features with Indirect Effects

Query Lens étend Logit Lens pour interpréter les features des autoencodeurs creux en analysant conjointement les clés (encoder) et valeurs (decoder). La méthode capture les effets indirects via les modules aval, révélant des signatures de tokens cohérentes pour des features opaques sous Logit Lens. Hypothèse : les modules aval lisent les features via des sous-espaces spécifiques par couche.

Évaluations Papers Raisonnement

SIG

HYP

arXiv cs.LG·9 juin

MedicalRec: Medical recommender system for image classification without retraining

MedicalRec est un système de recommandation basé transformer pour sélectionner automatiquement le meilleur modèle de classification d'images médicales sans réentraînement. Construit sur MedicalRec-Bench (5000+ enregistrements de modèles testés sur cancer de peau, tumeurs, plaies, cancer du sein, IRM), le système atteint HitRate@100 de 75,5% avec 4 variantes (5-18 features).

Benchmarks Vision Outils

SIG

HYP

arXiv cs.LG·9 juin

Sample-Efficient Post-Training for LEGO Spatial-Physics Reasoning

Les LLM pour la génération d'assemblages LEGO souffrent du problème PhysHack : structures physiquement valides mais géométriquement mal alignées. Les auteurs proposent PVPO, une méthode RL sample-efficient couplant faisabilité physique et récompenses géométriques en voxel-space. Résultats : amélioration de l'alignement sémantique, stabilité structurelle et calibration.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·9 juin

A Topological Characterization of Graph Neural Networks via Stochastic Block Model Embeddings on the n-Sphere

Framework topologique pour comparer les GNNs entraînés en mappant les Stochastic Block Models sur la sphère n-dimensionnelle. Utilise la compacité de l'espace graphon, le lemme de régularité faible de Frieze-Kannan et la continuité Lipschitz des MPNNs. Produit une « empreinte » de faible dimension pour la recherche de candidats de transfer-learning sans réentraînement.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·9 juin

MST-Direct at Scale: Multivariate and Conditional Geostatistical Simulation via Sinkhorn Optimal Transport

MST-Direct étendu à grande échelle pour simulation géostatistique multivariée et conditionnelle via transport optimal de Sinkhorn. Résout scalabilité (O(nC) mémoire), extension multivariée et conditionnement par kriging. Validation sur 6 variables, grilles 200×200 et 100×100 avec 200 données observées. Reproduit distribution jointe exactement vs approximation PPMT.

Papers Benchmarks

SIG

HYP

arXiv cs.LG·9 juin

Optimality of Sequential Filtering Under Independent Cost and Selectivity Models

Article théorique prouvant que l'ordonnancement optimal des filtres séquentiels minimise le coût total en les triant par ratio croissant coût/probabilité de rejet. Simulations Monte Carlo confirment la domination stricte sur les heuristiques courantes.

Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·9 juin

Structured Neuron Pruning in Deep Neural Networks Using Multi-Armed Bandits

Cadre de pruning structuré utilisant des algorithmes de bandits multi-bras (MAB) pour supprimer des neurones complets dans les réseaux de neurones profonds. Évalue UCB1, Thompson Sampling, Epsilon-Greedy et autres politiques sur tâches de classification, régression et apprentissage profond. UCB1 et Thompson Sampling surpassent le pruning basé sur la magnitude et le modèle non élagué.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·9 juin

SRT: Super-Resolution for Time Series via Disentangled Rectified Flow

SRT propose un framework de super-résolution pour séries temporelles via flux rectifié disentanglé. La méthode décompose l'entrée en composantes trend/saisonnière, les aligne via représentation neurale implicite, et utilise un mécanisme d'attention cross-résolution. SRT-large pré-entraîné démontre capacités zero-shot sur 9 datasets publics.

Papers Benchmarks

SIG

HYP

arXiv cs.AI·9 juin

Online Agent-as-a-Judge: Situation-Generating Evaluation for Interactive Agents

Nouvelle méthode d'évaluation pour agents sociaux IA : un agent évaluateur interagit activement avec l'agent cible pour générer des situations spécifiques testant des critères sociaux (gestion de conflits, etc.). Testé sur 32 critères dans un environnement de simulation de vie, améliore la couverture et l'accord avec les labels humains par rapport aux méthodes passives.

Agents IA Évaluations Multi-agents

SIG

HYP

arXiv cs.LG·9 juin

LFNO: Bridging Laplace and Fourier via Transient-Steady Decomposition

LFNO (Laplace-Fourier Neural Operator) combine les avantages spectraux des opérateurs de Laplace et Fourier via une décomposition explicite en régimes transitoires et stationnaires. Évalué sur 9 benchmarks (3 systèmes ODE, 6 systèmes PDE incluant Navier-Stokes), LFNO surpasse les opérateurs existants sur les ODE et rivalise avec FNO sur les PDE.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·9 juin

Automatic Extraction of Structured Information from Brain MRI Reports Using an Open-Weight Large Language Model

Étude sur l'extraction automatique de données structurées à partir de rapports IRM cérébrale en néerlandais. LLaMA 3.1 atteint 90-96% de précision pour les scores visuels (atrophie temporale médiale, atrophie corticale globale, Fazekas), 93% pour la détection de microhémorragies, mais 66-80% pour les variables numériques. Le few-shot prompting améliore les résultats numériques (92% pour microhémorragies).

Llama Prompt engineering Évaluations

SIG

HYP

arXiv cs.AI·9 juin

Think Before You Act: Intention-Guided Reasoning for LLM-Based Location Prediction

IntentPOI, un framework en deux étapes utilisant les LLM, prédit le prochain Point-of-Interest en inférant d'abord l'intention de l'utilisateur (mobilité historique, comportements pairs, contexte temporel), puis en sélectionnant les POI alignés. Surpasse 11 baselines sur trois datasets réels.

Raisonnement Agents IA

SIG

HYP

arXiv cs.AI·9 juin

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

PathoSage est un framework à trois étapes pour le raisonnement multimodal en pathologie computationnelle. Il sépare explicitement la récupération de connaissances, la collecte de preuves et l'adjudication des preuves via un système de délibération structurée. Un système Beta-Bernoulli sans entraînement modélise la fiabilité des outils pour réduire les hallucinations et les biais d'ancrage.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.LG·9 juin

MetaEvo: A Meta-Optimization Framework for Experience-Driven Agent Evolution

MetaEvo propose un framework deux étapes pour l'évolution continue d'agents LLM. Il combine l'optimisation basée sur les préférences pour améliorer l'abstraction de principes, puis accumule et réutilise ces principes dans une architecture modulaire. Résultats sur benchmarks de raisonnement montrent des améliorations continues sans plateau.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·9 juin

QDSP: An Interpretable Structured Learning Framework for Predicting Death or Cerebral Palsy in Very Low Birth Weight Infants

QDSP est un framework d'apprentissage structuré pour prédire la mortalité ou paralysie cérébrale chez les nourrissons de très faible poids à la naissance. Sur une cohorte de 51 patients, il atteint 92% d'accuracy et 0.9714 AUC, surpassant XGBoost, TabNet et TabPFN. L'interprétabilité via SHAP identifie des prédicteurs cliniques pertinents comme la leucomalacie périventriculaire kystique.

Benchmarks Évaluations Sécurité IA

SIG

HYP

Vercel AI Blog·9 juin

How Code and Theory cut time-to-prototype 75% with v0

Code and Theory réduit le time-to-prototype de 75% avec v0 en remplaçant wireframes et PRD par des workflows prompt-to-code. Les délais de déploiement baissent de 50%. L'agence (Microsoft, Amazon, NBC) transforme les briefs clients en prototypes fonctionnels en temps réel.

Génération de code Outils Business

SIG

HYP