Archives

mai 2026

3148 articles

arXiv cs.AI·

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

ReTAMamba est un modèle basé sur Mamba pour prédire des séries temporelles cliniques irrégulières. Il estime la fiabilité des observations selon leur absence et le temps écoulé, intègre des informations multi-résolution via « Chronological Weaving », et utilise un routeur de tokens budgété. Sur MIMIC-IV, eICU et PhysioNet 2012, il améliore l'AUPRC de 7,51%, 7,80% et 10,15% respectivement.

BenchmarksPapersRaisonnement
SIG
72
HYP
18
arXiv cs.LG·

ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

ORACLE est un framework agentic pour anticiper les escroqueries mobiles à partir de trajectoires d'utilisation d'applications en streaming. Sur un benchmark de 12 types d'escroqueries (95 apps, 15 jours en moyenne), le système utilise un gestionnaire de contexte auto-évolutif et une auto-distillation supervisée pour détecter les signaux précoces à partir d'observations partielles.

Agents IARaisonnementSécurité IA
SIG
72
HYP
25
arXiv cs.AI·

From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

EPIC (Efficient Preference-aligned Index Construction) optimise la RAG sur appareil en stockant les préférences utilisateur plutôt que des données brutes. Sur 4 benchmarks, réduit la mémoire d'indexation de 2404×, améliore la précision de suivi des préférences de 20,17 points, et abaisse la latence de récupération de 33,33×. Empreinte mémoire < 1 MB avec 29,35 ms/requête.

RAGAgents IAEmbeddings
SIG
78
HYP
25
arXiv cs.AI·

EAGT: Echocardiography Augmentation for Generalisability and Transferability

Étude comparative de 29 techniques d'augmentation de données pour la segmentation échocardiographique 2D sur U-Net. Les transformations géométriques anatomiquement plausibles (affine, shift-scale-rotate, perspective, flip horizontal) améliorent la généralisation cross-dataset, tandis que les augmentations d'intensité agressives la dégradent. Les combinaisons par paires surpassent les augmentations individuelles.

VisionBenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.AI·

MR-SLAM: Immersive Spatial Supervision for Multi-Robot Mapping via Mixed Reality

MR-SLAM est un système de réalité mixte utilisant un Meta Quest 3 pour téléopérer trois robots TurtleBot3 en SLAM collaboratif. L'opérateur voit le monde réel en passthrough avec des panneaux d'information ancrés spatialement. Trois instances SLAM Toolbox fusionnent leurs grilles d'occupation en temps réel via ROS 2, atteignant 94,7% de cohérence inter-robots et 8,83 Hz de scan.

RobotiqueMulti-agentsInfrastructure
SIG
72
HYP
25
arXiv cs.AI·

Hierarchical Two-Stage Framework for Environment-Aware Long-Horizon Vessel Trajectory Prediction

Framework hiérarchique deux étages pour prédire les trajectoires de navires sur long horizon en conditions océaniques réelles. Combine prédicteur long-terme avec prédicteur court-terme basé sur Graph Transformer spatio-temporel sur grille maritime. Module environnemental intègre courants, vent, hauteur de vague via attention cross-modale. Résultats : 25% meilleur ADE, 17% meilleur FDE sur données CTS Australie.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Diffusion Attention Expert Model for Predicting and Semi-automatic Localizing STAS in Lung Cancer Histopathological Images

DAEM (Diffusion Attention Expert Model) détecte les STAS (spread through air spaces) dans les images histopathologiques de cancer du poumon. Le modèle atteint AUC 0.8946 sur coupes congelées et 0.9112 sur coupes en paraffine. Validation sur 8 institutions externes. Localisation semi-automatique et biomarqueurs TME identifiés.

VisionBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

PH-Dreamer: A Physics-Driven World Model via Port-Hamiltonian Generative Dynamics

PH-Dreamer intègre des principes physiques (Port-Hamiltonien) dans les world models pour améliorer l'imagination latente. Le framework modélise l'évolution énergétique, estime l'Hamiltonien à partir d'observations proprioceptives, et utilise un Actor-Critic guidé par l'énergie. Résultats : réduction du volume de phase de 4.18-8.41%, consommation énergétique réduite de 7.80%, jerk diminué de 9.38%.

RaisonnementReinforcement learningPapers
SIG
78
HYP
15
arXiv cs.AI·

ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization

ISEP propose une méthode d'apprentissage par renforcement hors ligne qui élargit implicitement le support des actions en interpolant entre données en distribution et échantillons de politique. Un mécanisme stochastique alterne entre clonage conservateur et signaux d'expansion optimiste, implémenté via Flow Matching conditionnel avec guidance sans classifieur.

Reinforcement learningPapers
SIG
72
HYP
15
arXiv cs.LG·

TailedTS: Benchmark Dataset for Heavy-Tailed Time Series Prediction and Periodicity Quantification

TailedTS est un benchmark de 24,69 milliards de points de données issu des vues Wikipedia 2024, conçu pour tester les modèles de prévision de séries temporelles sous conditions heavy-tailed et non-gaussiennes. Le dataset révèle que 5% des pages génèrent 70% du trafic, et introduit un cadre de quantification de périodicité montrant que les pages très consultées ont une structure périodique plus faible.

Benchmarks
SIG
78
HYP
15
arXiv cs.LG·

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

ProxyKV propose un cadre de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une petite version du modèle (proxy) évalue l'importance du cache KV de manière asynchrone, via HybridAxialMapper et Multi-Granularity Hybrid Loss. Sur Llama-3.1, Qwen-2.5 et Qwen-3, récupère 98,7% de la précision de KVZip avec speedup jusqu'à 3,21× en prefilling (Llama-3.1-8B, dual-GPU) et contextes jusqu'à 170k tokens.

LlamaQwenRaisonnement
SIG
82
HYP
18
arXiv cs.AI·

Membership Inference Attacks on Discrete Diffusion Language Models

Étude des attaques d'inférence d'appartenance (MIA) sur les modèles de diffusion masqués (MDLM). Les chercheurs extraient des vecteurs de 46 dimensions de la perte de reconstruction à différents ratios de masquage et entraînent XGBoost et MLP. Sur le benchmark MIMIR, XGBoost atteint AUC 0.878 (pic 0.930), surpassant le baseline SAMA de 0.062 AUC. La trajectoire ELBO seule explique la majorité du signal.

Sécurité IABenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

PESD-TSF: A Period-Aware and Explicit Structured Decomposition Framework for Long-Term Time Series Forecasting

PESD-TSF est un framework de décomposition structurée pour la prévision de séries temporelles longues. Il introduit un mécanisme de gating périodique multiplicatif, un encodeur multi-échelle avec attention détrended, et une attention collaborative inter-variables (CSCA) pour préserver les structures périodiques et les dépendances entre variables à travers les couches profondes.

BenchmarksPapers
SIG
72
HYP
18
arXiv cs.AI·

Peak-Detector: Explainable Peak Detection via Instruction-Tuned Large Language Models in Physiological Sign

Peak-Detector utilise des LLMs instruction-tuned pour détecter les pics dans les signaux physiologiques (ECG, PPG, BCG, BSG) avec explainabilité. Une technique de « peak-representation » compresse les séries temporelles en préservant les événements critiques. Le modèle est optimisé via fine-tuning supervisé puis reinforcement learning multi-objectif, testé sur 7 datasets (6 publics + 1 cohorte réelle).

RaisonnementFine-tuningReinforcement learning
SIG
72
HYP
25
arXiv cs.AI·

Identifiable Token Correspondence for World Models

Modèle du monde basé Transformer pour la prédiction de frames vidéo. Formule la prédiction du frame suivant comme un problème d'inférence probabiliste structurée avec variables de correspondance latentes entre tokens. Chaque token est soit copié du frame précédent, soit généré. SOTA sur 4 benchmarks : 72.5% return et 35.6% score sur Craftax-classic (vs 67.4%/27.9% précédent).

RaisonnementVisionReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex

MINE (Mechanistically Interpretable Neural Encoding) applique l'interprétabilité mécanique aux modèles d'encodage neural pour identifier les features visuelles qui activent chaque voxel du cortex visuel humain. Via des représentations d'images alignées au langage et des éditions contrefactuelles, l'approche valide causalement la sélectivité fine des régions catégorielles du cerveau.

VisionPapers
SIG
78
HYP
15
arXiv cs.AI·

Optimising CSRNet with parameter-free attention mechanisms for crowd counting in public transport

Optimisation de CSRNet avec des mécanismes d'attention sans paramètres pour compter les foules dans les transports publics. Évaluation de modules PFCA, SA et SimAM sur le dataset ShanghaiTech. PFCASA (combinaison novel PFCA+SA) surpasse les approches paramétrées tout en réduisant la taille du modèle, applicable aux systèmes embarqués.

VisionBenchmarksInfrastructure
SIG
72
HYP
25
arXiv cs.AI·

MoleCode unlocks structural intelligence in large language models

MoleCode est un langage moléculaire natif pour LLM qui représente les molécules comme des graphes explicites avec entités typées et relations directes, au lieu de chaînes SMILES implicites. Sans entraînement, il améliore les performances sur le raisonnement moléculaire, l'édition et la génération, particulièrement pour structures complexes et opérations topologiquement sensibles.

RaisonnementGénération de codePapers
SIG
75
HYP
25
arXiv cs.AI·

Hypergraph Pattern Machine: Compositional Tokenization for Higher-Order Interactions

HGPM (Hypergraph Pattern Machine) modélise les interactions d'ordre supérieur en tokenisant les sous-ensembles compositionnels et en utilisant un Transformer conscient de l'inclusion. Sur 10 benchmarks hypergraphes, la méthode égale ou surpasse l'état de l'art, notamment en prédiction d'événements indésirables en polypharmacologie où elle identifie correctement les combinaisons de médicaments inhibitrices.

PapersBenchmarksRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Inventorship in AI-Assisted Inventions: Designing an Experiment to Shape Case Law

Article proposant une expérience pour créer une jurisprudence sur l'inventoriat dans les inventions assistées par IA. Face au manque de cas juridiques et à la rapidité du développement IA, les auteurs suggèrent une approche structurée impliquant des parties prenantes pour identifier comment mesurer la contribution humaine et déterminer qui peut être reconnu comme inventeur.

RégulationAlignement
SIG
45
HYP
15
arXiv cs.AI·

PromptDecipher: Supporting AI Tutor Authoring Through Editable Simulated Interactions

PromptDecipher est un système d'authoring pour chatbots tutoriels IA qui restructure le workflow autour de corrections directes plutôt que de prompts système abstraits. Les enseignants interagissent avec un aperçu de chat en direct, éditent les réponses indésirables du bot, et un pipeline automatisé propose des rewrites de prompts validés sur des scénarios de test prédéfinis.

Prompt engineeringAgents IAOutils
SIG
72
HYP
28
arXiv cs.LG·

LoopQ: Quantization for Recursive Transformers

LoopQ est un framework de quantification post-entraînement (PTQ) conçu pour les modèles de langage récursifs (LoopLMs) qui réutilisent les blocs Transformer. Il résout trois défis : décalage de distribution entre rôles, réutilisation d'état entre boucles, et accumulation d'erreur récursive. Sous quantification W4A4, LoopQ améliore la précision de 68,8% et réduit la perplexité de 87,7% vs baseline PTQ statique.

RaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Prompts Don't Protect: Architectural Enforcement via MCP Proxy for LLM Tool Access Control

Les LLM utilisés comme agents autonomes sélectionnent des outils non autorisés même avec instructions explicites. Une étude sur Qwen 2.5 7B, Llama 3.1 8B et Claude Haiku 3.5 montre qu'un proxy MCP avec contrôle d'accès basé attributs (ABAC) réduit les invocations non autorisées à 0%, contre 11-18% pour les restrictions par prompt. L'application architecturale est nécessaire, pas le prompt engineering.

Agents IAMCPSécurité IA
SIG
82
HYP
15
arXiv cs.LG·

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusion en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progression de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 36.3pp en satisfaction de contraintes.

Reinforcement learningRaisonnementGénération de code
SIG
78
HYP
15
arXiv cs.AI·

CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark

CrossView Suite introduit CrossViewSet (1.6M échantillons multi-vues), CrossViewBench (benchmark d'évaluation) et CrossViewer (framework trois étapes : Perception → Alignment → Reasoning) pour améliorer le raisonnement spatial multi-vues des MLLMs. Un moteur multi-agent génère des données annotées couvrant 17 types de tâches fine-grained.

VisionBenchmarksPapers
SIG
75
HYP
25
arXiv cs.LG·

PIMSM: Physics-Informed Multi-Scale Mamba for Stable Neural Representations under Distribution Shift

PIMSM intègre des contraintes physiques dans une architecture Mamba multi-échelle pour améliorer la stabilité des représentations sous distribution shift. Le modèle aligne les paramètres de discrétisation sur les fréquences caractéristiques des séries temporelles (fMRI, météo). Résultats : robustesse accrue sur Human Connectome Project et Weather-5K avec MAE minimal en prédiction hors-distribution.

RaisonnementBenchmarksPapers
SIG
78
HYP
18
arXiv cs.AI·

PopPy: Opportunistically Exploiting Parallelism in Python Compound AI Applications

PopPy est un système qui découvre automatiquement les opportunités de parallélisation dans les applications Python composites (appels multiples à des modèles ML). Sur des applications réelles, PopPy atteint des accélérations jusqu'à 6.4× en temps d'exécution bout-en-bout, combinant un compilateur ahead-of-time et un runtime pour gérer la complexité du langage, le dispatch dynamique et les mutations de variables.

Agents IAGénération de codeInfrastructure
SIG
78
HYP
15
arXiv cs.AI·

A Machine with Short-Term, Episodic, and Semantic Memory Systems

Modèle d'agent IA avec trois systèmes de mémoire (court terme, épisodique, sémantique) inspirés de la cognition humaine, chacun représenté par un graphe de connaissances. Évaluation via un environnement RL custom « the Room ». L'agent Deep Q-learning apprend à encoder, stocker et récupérer les mémoires pour répondre à des questions. Surpasse un agent sans cette structure.

Reinforcement learningRaisonnementAgents IA
SIG
72
HYP
25
arXiv cs.AI·

Action-Gradient Monte Carlo Tree Search for Non-Parametric Continuous (PO)MDPs

Action-Gradient MCTS (AGMCTS) combine recherche arborescente globale et optimisation d'actions par gradient local pour la planification en ligne dans des espaces continus. Trois contributions théoriques : théorème de gradient de score d'action, arbre MIS pour réutiliser les échantillons, gradients tractables via formule d'aire. Surpasse les solveurs basés sur l'échantillonnage sur benchmarks MDP/POMDP continus.

RaisonnementReinforcement learningPapers
SIG
72
HYP
18
arXiv cs.AI·

Evaluating AI Alignment in LLMs: Output Analysis of Value Priorities Across 75 Models with Human Benchmarking

Étude d'alignement IA sur 75 LLMs comparés à 376 humains. Analyse qualitative identifie 6 thèmes de fonctionnement optimal (Performance, Capacité Adaptative, Bien Social, Éthique, Intégration Relationnelle, Agentivité). Les modèles reproduisent l'ordre des valeurs humaines mais exagèrent systématiquement les différences. La fidélité de profil ne corrèle pas avec la taille ou la récence du modèle.

AlignementÉvaluationsBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning

BPO, un framework en trois étapes (bootstrapping, extrapolation, refinement), crée une boucle d'auto-amélioration pour entraîner des modèles de raisonnement robustes en planification long-horizon avec récompenses éparses. Utilise des quaternions de planification, fusion chain-of-thought long-court, et curriculum learning stratifié. SOTA sur ALFWorld, ScienceWorld, WebShop avec efficacité token significative.

RaisonnementAgents IAReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games

GVGAI-LLM est un benchmark de jeux vidéo pour évaluer le raisonnement spatial et la résolution de problèmes des LLM. Basé sur le framework General Video Game AI, il contient 118 jeux en ASCII testant la planification et le raisonnement logique. Les évaluations zéro-shot révèlent des limitations persistantes des modèles actuels en raisonnement spatial, partiellement améliorées par prompting structuré.

BenchmarksRaisonnementAgents IA
SIG
72
HYP
25
arXiv cs.AI·

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning

R-AIRL (Reasoning Adversarial Inverse Reinforcement Learning) infère des fonctions de récompense au niveau du processus à partir des chaînes de pensée d'experts, sans nécessiter de récompenses explicites. Testé sur GSM8K, MMLU-Pro et MedReason : améliore pass@1 de 17,4 points en reranking, surpasse SFT en post-training, localise les défaillances de raisonnement avec 86,1% de précision.

Reinforcement learningRaisonnementÉvaluations
SIG
78
HYP
25
arXiv cs.AI·

What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

Étude systématique des modèles de monde JEPA (Joint-Embedding Predictive Architecture) pour la planification physique. Les auteurs caractérisent les choix techniques (architecture, objectif d'entraînement, algorithme de planification) et proposent un modèle surpassant DINO-WM et V-JEPA-2-AC sur tâches de navigation et manipulation. Code, données et checkpoints disponibles.

RaisonnementRobotiquePapers
SIG
78
HYP
15
arXiv cs.AI·

Agentic AI Governance and Lifecycle Management in Healthcare

Des chercheurs proposent UALM (Unified Agent Lifecycle Management), un cadre de gouvernance pour les systèmes d'IA agentiques en santé. Le modèle adresse la prolifération d'agents (agent sprawl) via cinq couches de contrôle : registre d'identité, orchestration, gestion des données PHI, application de politiques runtime avec kill-switch, et décommissionnement lié à la révocation de credentials.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Nouvel benchmark DDR-Bench évalue l'intelligence investigatrice des LLM : capacité autonome à explorer des bases de données et extraire insights sans requête explicite. Les modèles frontière montrent une agentivité émergente mais peinent sur l'exploration long-horizon. L'étude distingue intelligence investigatrice (fixer ses propres buts) vs exécutionnelle (compléter des tâches assignées).

Agents IABenchmarksRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

AgentArk distille l'intelligence multi-agent dans un seul modèle LLM via trois stratégies hiérarchiques : fine-tuning amélioré, augmentation par trajectoires et distillation consciente du processus. Le modèle résultant préserve l'efficacité computationnelle d'un agent unique tout en conservant les capacités de raisonnement et d'auto-correction des systèmes multi-agent.

Agents IAMulti-agentsFine-tuning
SIG
78
HYP
25
arXiv cs.AI·

LiTS: A Modular Framework for LLM Tree Search

LiTS est un framework Python modulaire pour le raisonnement LLM via tree search. Il décompose la recherche en trois composants réutilisables (Policy, Transition, RewardModel) compatibles avec MCTS et BFS. Tests sur MATH500, Crosswords et MapEval montrent l'orthogonalité composants-algorithmes. Découverte clé : la diversité de la policy LLM, non la qualité de la récompense, est le goulot en espaces d'actions infinis.

RaisonnementAgents IAOpen source
SIG
78
HYP
25
arXiv cs.AI·

Expectation and Acoustic Neural Network Representations Enhance Music Identification from Brain Activity

Des chercheurs montrent que combiner des représentations acoustiques et prédictives d'un réseau de neurones artificiels améliore l'identification musicale à partir d'activité cérébrale (EEG). Les modèles préentraînés sur ces deux types de représentations surpassent les baselines et leurs gains sont complémentaires. Cette approche ouvre la voie à des modèles EEG génériques fondés sur les principes du codage cortical.

ÉvaluationsRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

How Wrong Can Your Counterfactual Be? Quantifying Confounding Bias for Continuous Treatments without a Control Group

Framework de causal inference pour stress testing financier en données de panel avec traitement continu sans groupe contrôle. Propose une enveloppe de confounding en forme fermée paramétrée par deux sensibilités, combine identification partielle et conformal prediction pondérée. Montre que modèles prédictifs standard restent biaisés causalement sur données de chômage US.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Can LLM Agents Be CFOs? Benchmarking Long-Horizon Resource Allocation in an Uncertain Enterprise Environment

EnterpriseArena, un simulateur CFO de 132 mois, évalue la capacité des agents LLM à allouer des ressources sur long terme dans l'incertitude. Tests sur 23 modèles et 4 frameworks : seulement 15,4% des essais survivent l'horizon complet. Les modèles plus grands ne surpassent pas fiablement les petits. Révèle un écart critique dans la gestion d'engagements contraignants sous observabilité partielle.

Agents IABenchmarksRaisonnement
SIG
82
HYP
18
arXiv cs.AI·

Spatiotemporal Robustness of Temporal Logic Tasks using Multi-Objective Reasoning

Article arXiv proposant une notion de robustesse spatiotemporelle (STR) pour les spécifications de logique temporelle sur signaux discrets. Formalisée comme problème de raisonnement multi-objectif via ordre partiel, STR capture perturbations spatiales et temporelles conjointes. Applicable aux systèmes multi-agents, villes intelligentes, contrôle du trafic aérien. Algorithmes de monitoring proposés.

Multi-agentsRaisonnementSécurité IA
SIG
72
HYP
15
arXiv cs.LG·

LEAF: A Living Benchmark for Event-Augmented Forecasting

LEAF est un benchmark vivant pour évaluer les capacités de prévision des LLM en utilisant des événements multidimensionnels. Le système utilise des agents de récupération récursive et une validation croisée dual-agent pour fournir du texte auxiliaire pertinent. Les tests montrent que les LLM exploitent les signaux d'événements complexes pour améliorer les prévisions, notamment sur les actions boursières.

BenchmarksAgents IAMulti-agents
SIG
72
HYP
28
arXiv cs.AI·

EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models

EmergentBridge améliore les modèles d'embedding multimodaux unifiés pour les paires de modalités non appariées (audio↔profondeur, infrarouge↔audio). La méthode apprend un mappage produisant un « noisy bridge anchor » et applique l'alignement dans un sous-espace orthogonal, préservant la structure d'alignement existante. Résultats sur 9 datasets : surpasse les baselines en classification et retrieval zero-shot.

EmbeddingsVisionMulti-agents
SIG
72
HYP
18
arXiv cs.AI·

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning

GCPO (Group Cooperative Policy Optimization) remplace l'optimisation compétitive des rollouts par une attribution de crédit au niveau de l'équipe. Les rollouts sont récompensés selon leur contribution à la couverture de solutions valides (volume déterminant sur embeddings sémantiques), pas leur précision individuelle. Résultats : amélioration de la précision et de la diversité sur benchmarks de raisonnement.

Reinforcement learningRaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

LegalCheck: Retrieval- and Context-Augmented Generation for Drafting Municipal Legal Advice Letters

LegalCheck automatise la rédaction de lettres de réponse aux objections dans les municipalités néerlandaises via RAG et génération augmentée par contexte. Déployé à Amsterdam, le système produit des brouillons juridiques en minutes au lieu d'heures, avec 80-100% du contenu essentiel, tout en maintenant la révision par expert et la cohérence légale.

RAGPrompt engineeringBusiness
SIG
78
HYP
22
arXiv cs.AI·

Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

Étude arXiv montrant que les LLM présentent un écart entre la reconnaissance du besoin d'outils et leur utilisation réelle. Sur 4 modèles testés en arithmétique et QA factuels, les auteurs détectent 26.5-54% de désaccords. L'analyse des états cachés révèle que cognition et action deviennent orthogonales en couches finales, concentrant l'erreur à la transition cognition-action.

Agents IAOutilsRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation

OpenDeepThink utilise l'agrégation Bradley-Terry pour sélectionner les meilleures solutions parmi plusieurs candidats générés en parallèle. Le système compare aléatoirement des paires de réponses, agrège les votes et préserve les meilleures pour mutation. Sur Codeforces, Gemini 3.1 Pro gagne +405 points Elo en 8 appels LLM (~27 min). Les auteurs publient CF-73, 73 problèmes annotés par des experts.

RaisonnementBenchmarksGemini
SIG
78
HYP
25
arXiv cs.AI·

Ensemble Monitoring for AI Control: Diverse Signals Outweigh More Compute

Étude montrant que des ensembles diversifiés de moniteurs détectent mieux les actions mal alignées d'agents IA que des ensembles homogènes. 12 moniteurs GPT-4.1-Mini (prompting + fine-tuning) évalués sur tâches de code : le meilleur ensemble de 3 moniteurs atteint 2.4x plus de gain de détection qu'un ensemble de 3 moniteurs identiques, avec généralisation sur données indépendantes.

Sécurité IAAlignementAgents IA
SIG
78
HYP
25
arXiv cs.AI·

Time-Efficient Hybrid Hyperparameter Tuning Approach for Cardiovascular Disease Classification

Article proposant une méthode hybride de tuning d'hyperparamètres (random grid search) pour la classification des maladies cardiovasculaires. Combine exploration globale (random search) et recherche exhaustive locale (grid search). Résultats expérimentaux montrent réduction du temps d'entraînement et amélioration des performances par rapport aux méthodes traditionnelles.

Benchmarks
SIG
45
HYP
25
arXiv cs.LG·

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

Les chercheurs formalisent le steering d'activation (contrôle d'LLM sans réentraînement) comme optimisation contrainte par budget sur la couche et le coefficient. Ils introduisent la granularité conceptuelle pour mesurer l'hétérogénéité directionnelle et présentent GRACE, un framework utilisant la géométrie d'activation pour diagnostiquer les difficultés de steering et réduire de 39,8% les évaluations nécessaires.

RaisonnementAlignementPapers
SIG
78
HYP
15
arXiv cs.AI·

Mitigating Extrinsic Gender Bias for Bangla Classification Tasks

Étude sur le biais de genre extrinsèque dans les modèles de langage préentraînés en bengali. Construction de 4 datasets annotés manuellement (analyse de sentiment, détection de toxicité, discours haineux, sarcasme) avec perturbations de genre minimales. Proposition de RandSymKL, stratégie de débiaisage combinant divergence KL symétrique et perte cross-entropy, réduisant le biais tout en maintenant la précision.

BenchmarksSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.LG·

AdaGraph: A Graph-Native Clustering Algorithm That Overcomes the Curse of Dimensionality and Enables Scientific Discovery

AdaGraph est un algorithme de clustering graph-native qui élimine la malédiction de la dimensionnalité en opérant sur la topologie des graphes kNN plutôt que sur les distances euclidiennes. Testé sur 10 benchmarks synthétiques (d=10 à 5000) et trois domaines scientifiques (génomique, NLP, matériaux), il surpasse HDBSCAN, WGCNA et autres méthodes sans spécifier k a priori.

BenchmarksPapers
SIG
78
HYP
35
arXiv cs.AI·

Representational Alignment with Chemical Induced Fit for Molecular Relational Learning

ReAlignFit, une méthode d'apprentissage relationnel moléculaire, améliore la stabilité des modèles en alignant les représentations de sous-structures via un biais inspiré du mécanisme chimique d'ajustement induit. Testée sur 9 datasets, elle surpasse les modèles existants et renforce la robustesse face aux changements de distribution (règles et scaffolds).

PapersBenchmarksRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Naturalistic Computational Cognitive Science: Towards generalizable models and theories that capture the full range of natural behavior

Article de recherche proposant d'intégrer les progrès en IA aux méthodes de sciences cognitives pour construire des théories généralisables. Les auteurs argumentent que les paradigmes expérimentaux naturalistes et les modèles computationnels capables de les accommoder sont nécessaires pour comprendre l'intelligence naturelle et assurer la généralisation des théories.

RaisonnementPapersBenchmarks
SIG
65
HYP
25
arXiv cs.AI·

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

UniversalRAG est un framework RAG multi-modal qui récupère et intègre des connaissances de sources hétérogènes (texte, images, vidéos) à granularités variables. Il introduit le routage conscient de la modalité pour éviter le biais intra-modal et organise chaque modalité en niveaux de granularité. Validé sur 10 benchmarks, il surpasse les baselines mono-modales et unifiées.

RAGVisionGénération de vidéos
SIG
75
HYP
25
arXiv cs.AI·

Catastrophic Overfitting, Entropy Gap and Participation Ratio: A Noiseless $l^p$ Norm Solution for Fast Adversarial Training

Article arXiv proposant une solution au surapprentissage catastrophique (CO) en entraînement adversarial rapide. Les auteurs contrôlent la norme lp d'entraînement plutôt que d'ajouter du bruit ou de la régularisation. Ils quantifient la concentration de gradient via le Participation Ratio et l'entropie, développant un FGSM-lp adaptatif qui ajuste automatiquement la norme d'entraînement.

Sécurité IAAlignementBenchmarks
SIG
72
HYP
15