mai 2026

3149 articles

CheckSupport: A Local LLM-Powered Tool for Automated Manuscript Submission Checklist Selection and Completion

CheckSupport est un système open-source utilisant des LLM locaux pour automatiser la sélection et la complétion de checklists de reporting scientifique. Évalué sur des manuscrits peer-reviewed, il atteint 90% de précision pour les recommandations et 88% pour la complétion d'items, en 12,5 secondes par manuscrit sur CPU.

Llama Prompt engineering Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning

Hilbert-Geo introduit un cadre formel unifié pour la géométrie solide via Parse2Reason : parsing en langage CDL (Conditional Description Language) puis raisonnement avec théorèmes. Atteint 77,3% sur SolidFGeo2k et 84,1% sur MathVerse-Solid, surpassant Gemini-2.5-pro (54,2%) et GPT-5 (62,9%). Deux datasets annotés : SolidFGeo2k et PlaneFGeo3k.

Raisonnement Vision Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

ReTAMamba est un modèle basé sur Mamba pour prédire des séries temporelles cliniques irrégulières. Il estime la fiabilité des observations selon leur absence et le temps écoulé, intègre des informations multi-résolution via « Chronological Weaving », et utilise un routeur de tokens budgété. Sur MIMIC-IV, eICU et PhysioNet 2012, il améliore l'AUPRC de 7,51%, 7,80% et 10,15% respectivement.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

GPU-Accelerated Deep Learning for Heatwave Prediction and Urban Heat Risk Assessment

Framework deep learning GPU pour prédire les conditions thermiques urbaines et évaluer les risques de canicule. ConvLSTM avec loss mixte atteint MAE=0.2293, RMSE=0.3089, R²=0.8877 sur données MODIS et Open-Meteo à Sarajevo. Génère des cartes de risque thermique urbain.

Benchmarks Vision Infrastructure

SIG

HYP

arXiv cs.LG·19 mai

ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

ORACLE est un framework agentic pour anticiper les escroqueries mobiles à partir de trajectoires d'utilisation d'applications en streaming. Sur un benchmark de 12 types d'escroqueries (95 apps, 15 jours en moyenne), le système utilise un gestionnaire de contexte auto-évolutif et une auto-distillation supervisée pour détecter les signaux précoces à partir d'observations partielles.

Agents IA Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Are Sparse Autoencoder Benchmarks Reliable?

Audit critique de SAEBench, la suite d'évaluation standard pour les autoencodeurs creux (SAEs). Les métriques TPP et SCR échouent à plusieurs tests de fiabilité et ne doivent pas être utilisées. Les autres métriques montrent un bruit de reseed élevé et une discriminabilité faible. Seule sae-probes offre une fiabilité acceptable, mais peine à différencier les variantes d'architecture.

Évaluations Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

EPIC (Efficient Preference-aligned Index Construction) optimise la RAG sur appareil en stockant les préférences utilisateur plutôt que des données brutes. Sur 4 benchmarks, réduit la mémoire d'indexation de 2404×, améliore la précision de suivi des préférences de 20,17 points, et abaisse la latence de récupération de 33,33×. Empreinte mémoire < 1 MB avec 29,35 ms/requête.

RAG Agents IA Embeddings

SIG

HYP

arXiv cs.AI·19 mai

EAGT: Echocardiography Augmentation for Generalisability and Transferability

Étude comparative de 29 techniques d'augmentation de données pour la segmentation échocardiographique 2D sur U-Net. Les transformations géométriques anatomiquement plausibles (affine, shift-scale-rotate, perspective, flip horizontal) améliorent la généralisation cross-dataset, tandis que les augmentations d'intensité agressives la dégradent. Les combinaisons par paires surpassent les augmentations individuelles.

Vision Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

Charon: A Unified and Fine-Grained Simulator for Large-Scale LLM Training and Inference

Charon est un simulateur unifié et modulaire pour prédire les performances d'entraînement et d'inférence des LLM à grande échelle. Il atteint une erreur de prédiction inférieure à 5,35% globalement et 3,74% pour l'entraînement sur clusters GPU. En déploiement d'inférence, il a identifié une configuration améliorant le débit système.

Benchmarks Infrastructure Papers

SIG

HYP

arXiv cs.AI·19 mai

MR-SLAM: Immersive Spatial Supervision for Multi-Robot Mapping via Mixed Reality

MR-SLAM est un système de réalité mixte utilisant un Meta Quest 3 pour téléopérer trois robots TurtleBot3 en SLAM collaboratif. L'opérateur voit le monde réel en passthrough avec des panneaux d'information ancrés spatialement. Trois instances SLAM Toolbox fusionnent leurs grilles d'occupation en temps réel via ROS 2, atteignant 94,7% de cohérence inter-robots et 8,83 Hz de scan.

Robotique Multi-agents Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy

KVCapsule compresse le cache KV des modèles vision-langage lors du décodage autorégressif. La méthode exploite les patterns d'attention structurés des tokens visuels pour atteindre 2x d'amélioration en TPS et 2.4x de réduction mémoire à 60% de compression, sans modification du backbone préentraîné.

Vision Raisonnement Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Hierarchical Two-Stage Framework for Environment-Aware Long-Horizon Vessel Trajectory Prediction

Framework hiérarchique deux étages pour prédire les trajectoires de navires sur long horizon en conditions océaniques réelles. Combine prédicteur long-terme avec prédicteur court-terme basé sur Graph Transformer spatio-temporel sur grille maritime. Module environnemental intègre courants, vent, hauteur de vague via attention cross-modale. Résultats : 25% meilleur ADE, 17% meilleur FDE sur données CTS Australie.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Diffusion Attention Expert Model for Predicting and Semi-automatic Localizing STAS in Lung Cancer Histopathological Images

DAEM (Diffusion Attention Expert Model) détecte les STAS (spread through air spaces) dans les images histopathologiques de cancer du poumon. Le modèle atteint AUC 0.8946 sur coupes congelées et 0.9112 sur coupes en paraffine. Validation sur 8 institutions externes. Localisation semi-automatique et biomarqueurs TME identifiés.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

PH-Dreamer: A Physics-Driven World Model via Port-Hamiltonian Generative Dynamics

PH-Dreamer intègre des principes physiques (Port-Hamiltonien) dans les world models pour améliorer l'imagination latente. Le framework modélise l'évolution énergétique, estime l'Hamiltonien à partir d'observations proprioceptives, et utilise un Actor-Critic guidé par l'énergie. Résultats : réduction du volume de phase de 4.18-8.41%, consommation énergétique réduite de 7.80%, jerk diminué de 9.38%.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·19 mai

Wasserstein Equilibrium Decoding for Reliable Medical Visual Question Answering

Nouvelle méthode de décodage game-théorique pour modèles vision-langage petits (2-8B) en imagerie médicale. Critère d'arrêt Wasserstein sémantique remplace l'appariement lexical, améliorant Qwen3-VL-2B de +3.5pp sur VQA-RAD et réduisant itérations de convergence de 20% tout en maintenant fiabilité.

Vision Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization

ISEP propose une méthode d'apprentissage par renforcement hors ligne qui élargit implicitement le support des actions en interpolant entre données en distribution et échantillons de politique. Un mécanisme stochastique alterne entre clonage conservateur et signaux d'expansion optimiste, implémenté via Flow Matching conditionnel avec guidance sans classifieur.

Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·19 mai

TailedTS: Benchmark Dataset for Heavy-Tailed Time Series Prediction and Periodicity Quantification

TailedTS est un benchmark de 24,69 milliards de points de données issu des vues Wikipedia 2024, conçu pour tester les modèles de prévision de séries temporelles sous conditions heavy-tailed et non-gaussiennes. Le dataset révèle que 5% des pages génèrent 70% du trafic, et introduit un cadre de quantification de périodicité montrant que les pages très consultées ont une structure périodique plus faible.

Benchmarks

SIG

HYP

arXiv cs.LG·19 mai

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

ProxyKV propose un cadre de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une petite version du modèle (proxy) évalue l'importance du cache KV de manière asynchrone, via HybridAxialMapper et Multi-Granularity Hybrid Loss. Sur Llama-3.1, Qwen-2.5 et Qwen-3, récupère 98,7% de la précision de KVZip avec speedup jusqu'à 3,21× en prefilling (Llama-3.1-8B, dual-GPU) et contextes jusqu'à 170k tokens.

Llama Qwen Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Membership Inference Attacks on Discrete Diffusion Language Models

Étude des attaques d'inférence d'appartenance (MIA) sur les modèles de diffusion masqués (MDLM). Les chercheurs extraient des vecteurs de 46 dimensions de la perte de reconstruction à différents ratios de masquage et entraînent XGBoost et MLP. Sur le benchmark MIMIR, XGBoost atteint AUC 0.878 (pic 0.930), surpassant le baseline SAMA de 0.062 AUC. La trajectoire ELBO seule explique la majorité du signal.

Sécurité IA Benchmarks Papers

SIG

HYP

arXiv cs.LG·19 mai

Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need?

Article arXiv proposant un cadre statistique formel pour combiner évaluations LLM et humaines. Utilise un estimateur doublement robuste (missing data) pour déterminer le nombre optimal d'évaluations humaines nécessaires en validation de benchmarks, en fonction de la prédictibilité des jugements LLM.

Évaluations Papers Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

PESD-TSF: A Period-Aware and Explicit Structured Decomposition Framework for Long-Term Time Series Forecasting

PESD-TSF est un framework de décomposition structurée pour la prévision de séries temporelles longues. Il introduit un mécanisme de gating périodique multiplicatif, un encodeur multi-échelle avec attention détrended, et une attention collaborative inter-variables (CSCA) pour préserver les structures périodiques et les dépendances entre variables à travers les couches profondes.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Peak-Detector: Explainable Peak Detection via Instruction-Tuned Large Language Models in Physiological Sign

Peak-Detector utilise des LLMs instruction-tuned pour détecter les pics dans les signaux physiologiques (ECG, PPG, BCG, BSG) avec explainabilité. Une technique de « peak-representation » compresse les séries temporelles en préservant les événements critiques. Le modèle est optimisé via fine-tuning supervisé puis reinforcement learning multi-objectif, testé sur 7 datasets (6 publics + 1 cohorte réelle).

Raisonnement Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Identifiable Token Correspondence for World Models

Modèle du monde basé Transformer pour la prédiction de frames vidéo. Formule la prédiction du frame suivant comme un problème d'inférence probabiliste structurée avec variables de correspondance latentes entre tokens. Chaque token est soit copié du frame précédent, soit généré. SOTA sur 4 benchmarks : 72.5% return et 35.6% score sur Craftax-classic (vs 67.4%/27.9% précédent).

Raisonnement Vision Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Breaking the accuracy-resource dilemma: a lightweight adaptive video inference enhancement

Méthode d'amélioration d'inférence vidéo utilisant un contrôleur flou (FC-r) pour adapter dynamiquement la taille des modèles selon les ressources disponibles. Exploite la corrélation spatio-temporelle entre frames adjacentes. Équilibre performance et efficacité énergétique sans augmenter la complexité architecturale.

Génération de vidéos Raisonnement Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex

MINE (Mechanistically Interpretable Neural Encoding) applique l'interprétabilité mécanique aux modèles d'encodage neural pour identifier les features visuelles qui activent chaque voxel du cortex visuel humain. Via des représentations d'images alignées au langage et des éditions contrefactuelles, l'approche valide causalement la sélectivité fine des régions catégorielles du cerveau.

Vision Papers

SIG

HYP

arXiv cs.AI·19 mai

LERA: LLM-Enhanced RAG for Ad Auction in Generative Chatbots

LERA propose un framework d'enchères publicitaires pour chatbots LLM en deux étapes : filtrage coarse par embeddings, puis ranking fin via prompts LLM pour scores de pertinence. Combine pertinence organique et enchères avec règle de paiement critique-value. Améliore précision et diversité des annonces sur benchmark synthétique.

RAG Prompt engineering Business

SIG

HYP

arXiv cs.AI·19 mai

Optimising CSRNet with parameter-free attention mechanisms for crowd counting in public transport

Optimisation de CSRNet avec des mécanismes d'attention sans paramètres pour compter les foules dans les transports publics. Évaluation de modules PFCA, SA et SimAM sur le dataset ShanghaiTech. PFCASA (combinaison novel PFCA+SA) surpasse les approches paramétrées tout en réduisant la taille du modèle, applicable aux systèmes embarqués.

Vision Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

WhiteTesseract: Reframing the Interpretation of Cultural Heritage through XR and Conversational AI

WhiteTesseract combine XR haute résolution et IA conversationnelle pour enrichir les visites de musées. Testé sur une exposition Monet avec 26 participants, le système augmente le temps d'observation de 35,3 à 98,3 secondes (p<0,001). 60% des 529 interactions dépassent les requêtes factuelles pour inclure analyse, émotion et comparaison.

Vision Agents IA Papers

SIG

HYP

arXiv cs.AI·19 mai

MoleCode unlocks structural intelligence in large language models

MoleCode est un langage moléculaire natif pour LLM qui représente les molécules comme des graphes explicites avec entités typées et relations directes, au lieu de chaînes SMILES implicites. Sans entraînement, il améliore les performances sur le raisonnement moléculaire, l'édition et la génération, particulièrement pour structures complexes et opérations topologiquement sensibles.

Raisonnement Génération de code Papers

SIG

HYP

arXiv cs.AI·19 mai

Visual Agentic Memory: Enabling Online Long Video Understanding via Online Indexing, Hierarchical Memory, and Agentic Retrieval

Visual Agentic Memory (VAM) est un framework sans entraînement pour la compréhension vidéo longue. Il combine indexation en ligne sélective, mémoire hiérarchique et récupération agentique. Sur OVO-Bench, VAM atteint 68.41 (vs 67.46 pour Gemini 3 Flash seul) et 17.11% sur MM-Lifelong (105.6h sur 51 jours).

Vision Agents IA Gemini

SIG

HYP

arXiv cs.AI·19 mai

Hypergraph Pattern Machine: Compositional Tokenization for Higher-Order Interactions

HGPM (Hypergraph Pattern Machine) modélise les interactions d'ordre supérieur en tokenisant les sous-ensembles compositionnels et en utilisant un Transformer conscient de l'inclusion. Sur 10 benchmarks hypergraphes, la méthode égale ou surpasse l'état de l'art, notamment en prédiction d'événements indésirables en polypharmacologie où elle identifie correctement les combinaisons de médicaments inhibitrices.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Inventorship in AI-Assisted Inventions: Designing an Experiment to Shape Case Law

Article proposant une expérience pour créer une jurisprudence sur l'inventoriat dans les inventions assistées par IA. Face au manque de cas juridiques et à la rapidité du développement IA, les auteurs suggèrent une approche structurée impliquant des parties prenantes pour identifier comment mesurer la contribution humaine et déterminer qui peut être reconnu comme inventeur.

Régulation Alignement

SIG

HYP

arXiv cs.AI·19 mai

Isotonic Survival Regression: Calibrated Survival Distributions from Deep Cox Models

Méthode de calibration post hoc pour modèles Deep Cox utilisant la régression isotonique. Améliore la calibration des probabilités de survie prédites sans affecter le pouvoir discriminant. Garanties théoriques incluant double-robustesse et calibration asymptotique, validées sur données synthétiques et cliniques réelles.

Papers Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·19 mai

Federated Nested Learning: Collaborative Training of Self-Referential Memories for Test-Time Adaptation

FedNL reformule l'apprentissage fédéré comme système d'optimisation imbriquée à trois niveaux. Intègre l'attention linéaire Titans pour adapter les modèles au test-time sans entraînement supplémentaire. Expériences sur MMLU et benchmarks long-contexte montrent performance compétitive et mémoire d'inférence constante.

Raisonnement Évaluations

SIG

HYP

arXiv cs.LG·19 mai

Geometric Asymmetry in MoE Specialization: Functional Decorrelation and Representational Overlap

Étude de la structure géométrique des architectures Mixture-of-Experts (MoE) via un framework Jacobian-PCA-Grassmann. Analyse de Mistral et Qwen révèle une asymétrie : décorrélation fonctionnelle forte entre experts mais représentations partiellement chevauchantes. Le routing sparse (top-k) renforce la séparation fonctionnelle.

Mistral Qwen Papers

SIG

HYP

arXiv cs.LG·19 mai

HPC-LLM: Practical Domain Adaptation and Retrieval-Augmented Generation for HPC Support

HPC-LLM est un assistant LLM spécialisé pour les workflows HPC (Slurm, MPI, GPU, filesystems). Basé sur Llama 3.1 8B fine-tuné avec QLoRA sur ~9k-24k exemples HPC, il combine RAG et adaptation de domaine. Le modèle atteint des performances comparables à Qwen 2.5 14B avec moins de ressources GPU.

Llama RAG Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

GRASP: Graph Agentic Search over Propositions for Multi-hop Question Answering

GRASP est un système agentic pour la réponse à questions multi-sauts qui décompose les requêtes en plans dépendants et utilise un graphe hiérarchique à trois couches (entités, propositions, passages). Sur MuSiQue, 2WikiMultihopQA et HotpotQA, GRASP atteint la meilleure précision tout en consommant 40-50% moins de tokens qu'IRCoT+HippoRAG2.

Agents IA Multi-agents RAG

SIG

HYP

arXiv cs.AI·19 mai

PromptDecipher: Supporting AI Tutor Authoring Through Editable Simulated Interactions

PromptDecipher est un système d'authoring pour chatbots tutoriels IA qui restructure le workflow autour de corrections directes plutôt que de prompts système abstraits. Les enseignants interagissent avec un aperçu de chat en direct, éditent les réponses indésirables du bot, et un pipeline automatisé propose des rewrites de prompts validés sur des scénarios de test prédéfinis.

Prompt engineering Agents IA Outils

SIG

HYP

arXiv cs.LG·19 mai

LoopQ: Quantization for Recursive Transformers

LoopQ est un framework de quantification post-entraînement (PTQ) conçu pour les modèles de langage récursifs (LoopLMs) qui réutilisent les blocs Transformer. Il résout trois défis : décalage de distribution entre rôles, réutilisation d'état entre boucles, et accumulation d'erreur récursive. Sous quantification W4A4, LoopQ améliore la précision de 68,8% et réduit la perplexité de 87,7% vs baseline PTQ statique.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Graph Hierarchical Recurrence for Long-Range Generalization

Graph Hierarchical Recurrence (GHR) est un nouveau framework pour les GNNs et Graph Transformers qui capture les dépendances longue portée via une abstraction hiérarchique par pooling. GHR surpasse les modèles existants sur les benchmarks longue portée avec 1% des paramètres des SOTA, et améliore la généralisation hors-distribution.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Prompts Don't Protect: Architectural Enforcement via MCP Proxy for LLM Tool Access Control

Les LLM utilisés comme agents autonomes sélectionnent des outils non autorisés même avec instructions explicites. Une étude sur Qwen 2.5 7B, Llama 3.1 8B et Claude Haiku 3.5 montre qu'un proxy MCP avec contrôle d'accès basé attributs (ABAC) réduit les invocations non autorisées à 0%, contre 11-18% pour les restrictions par prompt. L'application architecturale est nécessaire, pas le prompt engineering.

Agents IA MCP Sécurité IA

SIG

HYP

arXiv cs.LG·19 mai

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusion en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progression de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 36.3pp en satisfaction de contraintes.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark

CrossView Suite introduit CrossViewSet (1.6M échantillons multi-vues), CrossViewBench (benchmark d'évaluation) et CrossViewer (framework trois étapes : Perception → Alignment → Reasoning) pour améliorer le raisonnement spatial multi-vues des MLLMs. Un moteur multi-agent génère des données annotées couvrant 17 types de tâches fine-grained.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

An Assessment of Human vs. Model Uncertainty in Soft-Label Learning and Calibration

Étude contrôlée comparant les étiquettes souples humaines vs synthétiques sur MNIST. Les labels humains améliorent la calibration en régularisant les prédictions sur les échantillons difficiles et en alignant l'incertitude du modèle avec celle des humains, au-delà de la simple correction d'erreurs d'étiquetage.

Évaluations Alignement Sécurité IA

SIG

HYP

arXiv cs.LG·19 mai

PIMSM: Physics-Informed Multi-Scale Mamba for Stable Neural Representations under Distribution Shift

PIMSM intègre des contraintes physiques dans une architecture Mamba multi-échelle pour améliorer la stabilité des représentations sous distribution shift. Le modèle aligne les paramètres de discrétisation sur les fréquences caractéristiques des séries temporelles (fMRI, météo). Résultats : robustesse accrue sur Human Connectome Project et Weather-5K avec MAE minimal en prédiction hors-distribution.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

PopPy: Opportunistically Exploiting Parallelism in Python Compound AI Applications

PopPy est un système qui découvre automatiquement les opportunités de parallélisation dans les applications Python composites (appels multiples à des modèles ML). Sur des applications réelles, PopPy atteint des accélérations jusqu'à 6.4× en temps d'exécution bout-en-bout, combinant un compilateur ahead-of-time et un runtime pour gérer la complexité du langage, le dispatch dynamique et les mutations de variables.

Agents IA Génération de code Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Distilling Tabular Foundation Models for Structured Health Data

Des modèles tabulaires fondamentaux (TFM) pour la santé sont distillés vers des modèles légers via une approche de distillation consciente des fuites de contexte. Sur 19 datasets médicaux et 6 TFM, les étudiants conservent ≥90% de l'AUC du professeur tout en étant 26× plus rapides sur CPU, préservant calibration et équité.

Fine-tuning Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Towards an Inferentialist Account of Information Through Proof-theoretic Semantics

Article théorique proposant une fondation logico-mathématique de l'information via la sémantique proof-théorique. Remplace la notion de vérité par l'inférabilité dans le cadre d'une théorie inférentialiste, introduit le concept d'« inferon » et applique ces outils aux systèmes distribués.

Papers Raisonnement

SIG

HYP

arXiv cs.LG·19 mai

Bi-Level Chaotic Fusion Based Graph Convolutional Network for Stock Market Prediction Interval

Méthode de prédiction d'intervalles pour les marchés financiers combinant graphes spatio-temporels et fusion chaotique bi-niveaux. Modèle avec mécanisme de gating sensible à la volatilité et objectif LUBE. Tests sur 43 entreprises NSE (2016-2026) : score Winkler 0.0778, couverture 96.6%, améliorations significatives vs LSTM/GRU/GCN (p<0.001).

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Code as Agent Harness

Étude systématique de code comme infrastructure d'agents IA. Trois couches : interface de harness (code connecte raisonnement, action, modélisation d'environnement), mécanismes (planification, mémoire, utilisation d'outils, feedback), et passage à l'échelle multi-agents. Applications : assistants de code, automatisation GUI/OS, agents incarnés, découverte scientifique, DevOps.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·19 mai

A Machine with Short-Term, Episodic, and Semantic Memory Systems

Modèle d'agent IA avec trois systèmes de mémoire (court terme, épisodique, sémantique) inspirés de la cognition humaine, chacun représenté par un graphe de connaissances. Évaluation via un environnement RL custom « the Room ». L'agent Deep Q-learning apprend à encoder, stocker et récupérer les mémoires pour répondre à des questions. Surpasse un agent sans cette structure.

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Action-Gradient Monte Carlo Tree Search for Non-Parametric Continuous (PO)MDPs

Action-Gradient MCTS (AGMCTS) combine recherche arborescente globale et optimisation d'actions par gradient local pour la planification en ligne dans des espaces continus. Trois contributions théoriques : théorème de gradient de score d'action, arbre MIS pour réutiliser les échantillons, gradients tractables via formule d'aire. Surpasse les solveurs basés sur l'échantillonnage sur benchmarks MDP/POMDP continus.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·19 mai

Evaluating AI Alignment in LLMs: Output Analysis of Value Priorities Across 75 Models with Human Benchmarking

Étude d'alignement IA sur 75 LLMs comparés à 376 humains. Analyse qualitative identifie 6 thèmes de fonctionnement optimal (Performance, Capacité Adaptative, Bien Social, Éthique, Intégration Relationnelle, Agentivité). Les modèles reproduisent l'ordre des valeurs humaines mais exagèrent systématiquement les différences. La fidélité de profil ne corrèle pas avec la taille ou la récence du modèle.

Alignement Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning

BPO, un framework en trois étapes (bootstrapping, extrapolation, refinement), crée une boucle d'auto-amélioration pour entraîner des modèles de raisonnement robustes en planification long-horizon avec récompenses éparses. Utilise des quaternions de planification, fusion chain-of-thought long-court, et curriculum learning stratifié. SOTA sur ALFWorld, ScienceWorld, WebShop avec efficacité token significative.

Raisonnement Agents IA Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games

GVGAI-LLM est un benchmark de jeux vidéo pour évaluer le raisonnement spatial et la résolution de problèmes des LLM. Basé sur le framework General Video Game AI, il contient 118 jeux en ASCII testant la planification et le raisonnement logique. Les évaluations zéro-shot révèlent des limitations persistantes des modèles actuels en raisonnement spatial, partiellement améliorées par prompting structuré.

Benchmarks Raisonnement Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning

R-AIRL (Reasoning Adversarial Inverse Reinforcement Learning) infère des fonctions de récompense au niveau du processus à partir des chaînes de pensée d'experts, sans nécessiter de récompenses explicites. Testé sur GSM8K, MMLU-Pro et MedReason : améliore pass@1 de 17,4 points en reranking, surpasse SFT en post-training, localise les défaillances de raisonnement avec 86,1% de précision.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings

Scales++ propose une sélection de sous-ensembles de benchmarks basée sur les propriétés intrinsèques des tâches plutôt que sur les patterns d'erreur des modèles. Avec 0,25% des données sur Open LLM Leaderboard, l'approche prédit les scores complets avec 3,2% d'erreur absolue moyenne, réduisant le coût de sélection de 18x.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

A New Perspective on Precision and Recall for Generative Models

Nouvelle méthode pour estimer les courbes Precision-Recall des modèles génératifs via classification binaire. Framework statistique avec bornes minimax et extension des métriques PR existantes. Analyse expérimentale sur plusieurs configurations.

Évaluations Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

MemOCR est un agent mémoire multimodal qui compresse les historiques d'interaction longues en images structurées avec densité informationnelle adaptative. Entraîné par RL avec objectifs sensibles au budget, il surpasse les baselines textuelles sur des benchmarks QA multi-hop et mono-hop sous contraintes de contexte extrêmes.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

Étude systématique des modèles de monde JEPA (Joint-Embedding Predictive Architecture) pour la planification physique. Les auteurs caractérisent les choix techniques (architecture, objectif d'entraînement, algorithme de planification) et proposent un modèle surpassant DINO-WM et V-JEPA-2-AC sur tâches de navigation et manipulation. Code, données et checkpoints disponibles.

Raisonnement Robotique Papers

SIG

HYP

arXiv cs.AI·19 mai

PersonaDual: Balancing Personalization and Objectivity via Adaptive Reasoning

PersonaDual est un framework LLM qui bascule adaptatif entre raisonnement objectif et personnalisé selon le contexte. Entraîné via SFT puis optimisé par RL avec DualGRPO, il préserve les bénéfices de la personnalisation tout en maintenant la factualité et réduisant les interférences.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

Agentic AI Governance and Lifecycle Management in Healthcare

Des chercheurs proposent UALM (Unified Agent Lifecycle Management), un cadre de gouvernance pour les systèmes d'IA agentiques en santé. Le modèle adresse la prolifération d'agents (agent sprawl) via cinq couches de contrôle : registre d'identité, orchestration, gestion des données PHI, application de politiques runtime avec kill-switch, et décommissionnement lié à la révocation de credentials.

Agents IA Multi-agents Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Real-Time Aligned Reward Model beyond Semantics

R2M (Real-Time Aligned Reward Model) propose une nouvelle approche RLHF pour réduire l'overfitting du modèle de récompense. Au lieu de s'appuyer uniquement sur les représentations sémantiques, R2M utilise les états cachés évolutifs de la politique pour s'aligner en temps réel avec les changements de distribution pendant l'entraînement par renforcement.

Reinforcement learning Alignement Papers

SIG

HYP

arXiv cs.AI·19 mai

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Nouvel benchmark DDR-Bench évalue l'intelligence investigatrice des LLM : capacité autonome à explorer des bases de données et extraire insights sans requête explicite. Les modèles frontière montrent une agentivité émergente mais peinent sur l'exploration long-horizon. L'étude distingue intelligence investigatrice (fixer ses propres buts) vs exécutionnelle (compléter des tâches assignées).

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

AgentArk distille l'intelligence multi-agent dans un seul modèle LLM via trois stratégies hiérarchiques : fine-tuning amélioré, augmentation par trajectoires et distillation consciente du processus. Le modèle résultant préserve l'efficacité computationnelle d'un agent unique tout en conservant les capacités de raisonnement et d'auto-correction des systèmes multi-agent.

Agents IA Multi-agents Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

RaBiT propose une méthode de binarisation résiduelle pour quantifier les LLM en 2-bit. Elle résout le problème d'adaptation redondante entre chemins parallèles en dérivant séquentiellement chaque chemin binaire d'un poids partagé en précision complète. Résultats : performance SOTA, speedup 4.49× sur RTX 4090.

Fine-tuning Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

LiTS: A Modular Framework for LLM Tree Search

LiTS est un framework Python modulaire pour le raisonnement LLM via tree search. Il décompose la recherche en trois composants réutilisables (Policy, Transition, RewardModel) compatibles avec MCTS et BFS. Tests sur MATH500, Crosswords et MapEval montrent l'orthogonalité composants-algorithmes. Découverte clé : la diversité de la policy LLM, non la qualité de la récompense, est le goulot en espaces d'actions infinis.

Raisonnement Agents IA Open source

SIG

HYP

arXiv cs.AI·19 mai

Expectation and Acoustic Neural Network Representations Enhance Music Identification from Brain Activity

Des chercheurs montrent que combiner des représentations acoustiques et prédictives d'un réseau de neurones artificiels améliore l'identification musicale à partir d'activité cérébrale (EEG). Les modèles préentraînés sur ces deux types de représentations surpassent les baselines et leurs gains sont complémentaires. Cette approche ouvre la voie à des modèles EEG génériques fondés sur les principes du codage cortical.

Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

How Wrong Can Your Counterfactual Be? Quantifying Confounding Bias for Continuous Treatments without a Control Group

Framework de causal inference pour stress testing financier en données de panel avec traitement continu sans groupe contrôle. Propose une enveloppe de confounding en forme fermée paramétrée par deux sensibilités, combine identification partielle et conformal prediction pondérée. Montre que modèles prédictifs standard restent biaisés causalement sur données de chômage US.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

Méthode « Explicit Logic Channel » parallèle aux MLLMs pour valider et améliorer les modèles multimodaux en zéro-shot. Combine LLM, VFM et raisonnement logique probabiliste (factuel, contrefactuel, relationnel) avec une métrique « Consistency Rate » pour sélectionner modèles sans annotations. Tests sur MC-VQA et HC-REC avec 11 MLLMs open-source.

Vision Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Can LLM Agents Be CFOs? Benchmarking Long-Horizon Resource Allocation in an Uncertain Enterprise Environment

EnterpriseArena, un simulateur CFO de 132 mois, évalue la capacité des agents LLM à allouer des ressources sur long terme dans l'incertitude. Tests sur 23 modèles et 4 frameworks : seulement 15,4% des essais survivent l'horizon complet. Les modèles plus grands ne surpassent pas fiablement les petits. Révèle un écart critique dans la gestion d'engagements contraignants sous observabilité partielle.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Spatiotemporal Robustness of Temporal Logic Tasks using Multi-Objective Reasoning

Article arXiv proposant une notion de robustesse spatiotemporelle (STR) pour les spécifications de logique temporelle sur signaux discrets. Formalisée comme problème de raisonnement multi-objectif via ordre partiel, STR capture perturbations spatiales et temporelles conjointes. Applicable aux systèmes multi-agents, villes intelligentes, contrôle du trafic aérien. Algorithmes de monitoring proposés.

Multi-agents Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Can Heterogeneous Language Models Be Fused?

HeteroFusion fusionne des modèles de langage hétérogènes (Llama, Qwen, Mistral) en alignant les structures fonctionnelles plutôt que les poids bruts, et en supprimant les signaux de transfert incompatibles. Surpasse les baselines de fusion et d'ensemble sur transfert hétérogène, fusion multi-source et généralisation cross-family.

Llama Qwen Mistral

SIG

HYP

arXiv cs.LG·19 mai

Language Game: Talking to Non-Human Systems

Cadre permettant le dialogue avec des systèmes non-humains (réseaux de régulation génétique, agents RL) en traitant la communication comme un jeu. Un LLM route les prompts vers le système dont la dynamique interne correspond le mieux, sans modifier ses paramètres. Démontre convergence comportementale entre agents disparates et révèle des biais inductifs des systèmes.

Raisonnement Reinforcement learning Agents IA

SIG

HYP

arXiv cs.LG·19 mai

LEAF: A Living Benchmark for Event-Augmented Forecasting

LEAF est un benchmark vivant pour évaluer les capacités de prévision des LLM en utilisant des événements multidimensionnels. Le système utilise des agents de récupération récursive et une validation croisée dual-agent pour fournir du texte auxiliaire pertinent. Les tests montrent que les LLM exploitent les signaux d'événements complexes pour améliorer les prévisions, notamment sur les actions boursières.

Benchmarks Agents IA Multi-agents

SIG

HYP

arXiv cs.AI·19 mai

EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models

EmergentBridge améliore les modèles d'embedding multimodaux unifiés pour les paires de modalités non appariées (audio↔profondeur, infrarouge↔audio). La méthode apprend un mappage produisant un « noisy bridge anchor » et applique l'alignement dans un sous-espace orthogonal, préservant la structure d'alignement existante. Résultats sur 9 datasets : surpasse les baselines en classification et retrieval zero-shot.

Embeddings Vision Multi-agents

SIG

HYP

arXiv cs.AI·19 mai

LEGO: An LLM Skill-Based Front-End Design Generation Platform

LEGO est une plateforme modulaire pour la génération de designs front-end numériques utilisant des LLM. Elle décompose le flux en 6 étapes et extrait 42 compétences de circuit réutilisables. Sur 41 problèmes VerilogEval v2 où GPT-5.2-codex échoue, LEGO atteint 80,5% Pass@1 vs 0% baseline, surpassant hierarchy-verilog (+14,6%) et VerilogCoder (+2,5%).

Génération de code Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

DataClawBench: An Agent Benchmark for Exploratory Real-World Financial Data Analysis

DataClawBench est un benchmark pour agents d'analyse de données exploratoire en finance réelle, contenant 2,06 millions d'enregistrements bruts et 492 tâches multi-domaines. L'évaluation de 8 LLMs avancés montre que l'exploration accrue ne garantit pas le progrès ou les réponses correctes.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Robust Agent Compensation (RAC): Teaching AI Agents to Compensate

RAC (Robust Agent Compensation) est un paradigme de récupération basé sur les logs qui s'intègre aux frameworks d'agents (LangGraph, LangChain) pour éviter les effets secondaires non intentionnels. Implémentation sans modification du code existant. Résultats : 1.5-8X meilleur en latence et économie de tokens vs approches LLM actuelles sur τ-bench et REALM-Bench.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

UxSID: Semantic-Aware User Interests Modeling for Ultra-Long Sequence

UxSID propose une architecture pour modéliser les séquences utilisateur ultra-longues via des Semantic IDs et une attention dual-level. Le framework équilibre efficacité computationnelle et conscience sémantique, atteignant SOTA et +0.337% de lift revenue en test A/B publicité large-scale.

RAG Embeddings Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Empowering VLMs for Few-Shot Multimodal Time Series Classification via Tailored Agentic Reasoning

MarsTSC, un framework agentic pour VLMs, résout la classification multimodale de séries temporelles en few-shot. Trois rôles collaboratifs (Generator, Reflector, Modifier) affinent itérativement une knowledge bank via reasoning réflexif. Tests sur 12 benchmarks, 6 backbones VLM : gains constants, rationales interprétables.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.AI·19 mai

Strategic Exploitation in LLM Agent Markets: A Simulation Framework for E-Commerce Trust

TruthMarketTwin, un framework de simulation multi-agents, étudie le comportement stratégique d'agents LLM dans les marchés e-commerce. Les agents exploitent autonomement les faiblesses des systèmes de réputation, tandis que l'application de garanties réduit la tromperie et modifie le raisonnement stratégique.

Agents IA Multi-agents Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning

GCPO (Group Cooperative Policy Optimization) remplace l'optimisation compétitive des rollouts par une attribution de crédit au niveau de l'équipe. Les rollouts sont récompensés selon leur contribution à la couverture de solutions valides (volume déterminant sur embeddings sémantiques), pas leur précision individuelle. Résultats : amélioration de la précision et de la diversité sur benchmarks de raisonnement.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

LegalCheck: Retrieval- and Context-Augmented Generation for Drafting Municipal Legal Advice Letters

LegalCheck automatise la rédaction de lettres de réponse aux objections dans les municipalités néerlandaises via RAG et génération augmentée par contexte. Déployé à Amsterdam, le système produit des brouillons juridiques en minutes au lieu d'heures, avec 80-100% du contenu essentiel, tout en maintenant la révision par expert et la cohérence légale.

RAG Prompt engineering Business

SIG

HYP

arXiv cs.AI·19 mai

Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

Étude arXiv montrant que les LLM présentent un écart entre la reconnaissance du besoin d'outils et leur utilisation réelle. Sur 4 modèles testés en arithmétique et QA factuels, les auteurs détectent 26.5-54% de désaccords. L'analyse des états cachés révèle que cognition et action deviennent orthogonales en couches finales, concentrant l'erreur à la transition cognition-action.

Agents IA Outils Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation

OpenDeepThink utilise l'agrégation Bradley-Terry pour sélectionner les meilleures solutions parmi plusieurs candidats générés en parallèle. Le système compare aléatoirement des paires de réponses, agrège les votes et préserve les meilleures pour mutation. Sur Codeforces, Gemini 3.1 Pro gagne +405 points Elo en 8 appels LLM (~27 min). Les auteurs publient CF-73, 73 problèmes annotés par des experts.

Raisonnement Benchmarks Gemini

SIG

HYP

arXiv cs.AI·19 mai

Ensemble Monitoring for AI Control: Diverse Signals Outweigh More Compute

Étude montrant que des ensembles diversifiés de moniteurs détectent mieux les actions mal alignées d'agents IA que des ensembles homogènes. 12 moniteurs GPT-4.1-Mini (prompting + fine-tuning) évalués sur tâches de code : le meilleur ensemble de 3 moniteurs atteint 2.4x plus de gain de détection qu'un ensemble de 3 moniteurs identiques, avec généralisation sur données indépendantes.

Sécurité IA Alignement Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Time-Efficient Hybrid Hyperparameter Tuning Approach for Cardiovascular Disease Classification

Article proposant une méthode hybride de tuning d'hyperparamètres (random grid search) pour la classification des maladies cardiovasculaires. Combine exploration globale (random search) et recherche exhaustive locale (grid search). Résultats expérimentaux montrent réduction du temps d'entraînement et amélioration des performances par rapport aux méthodes traditionnelles.

Benchmarks

SIG

HYP

arXiv cs.LG·19 mai

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

Les chercheurs formalisent le steering d'activation (contrôle d'LLM sans réentraînement) comme optimisation contrainte par budget sur la couche et le coefficient. Ils introduisent la granularité conceptuelle pour mesurer l'hétérogénéité directionnelle et présentent GRACE, un framework utilisant la géométrie d'activation pour diagnostiquer les difficultés de steering et réduire de 39,8% les évaluations nécessaires.

Raisonnement Alignement Papers

SIG

HYP

arXiv cs.LG·19 mai

Machine Learning-Based Pre-Test Risk Stratification for PCR-Confirmed Chlamydia Using Patient-Reported Data and Urine Biomarkers

Étude ML sur la stratification pré-test du risque de Chlamydia trachomatis. 93 échantillons d'urine analysés avec données auto-rapportées et biomarqueurs urinaires. Modèles combinés atteignent AUC 0.72, biomarqueurs urinaires offrent signal prédictif robuste complémentaire aux données cliniques.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Trustworthiness in Retrieval-Augmented Generation Systems: A Survey

Étude arXiv sur la fiabilité des systèmes RAG (Retrieval-Augmented Generation). Propose Trust-RAG Compass, un cadre évaluant 6 dimensions : factualité, robustesse, équité, transparence, responsabilité, confidentialité. Introduit TRC Bench, benchmark d'évaluation comparant modèles propriétaires et open-source.

RAG Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Mitigating Extrinsic Gender Bias for Bangla Classification Tasks

Étude sur le biais de genre extrinsèque dans les modèles de langage préentraînés en bengali. Construction de 4 datasets annotés manuellement (analyse de sentiment, détection de toxicité, discours haineux, sarcasme) avec perturbations de genre minimales. Proposition de RandSymKL, stratégie de débiaisage combinant divergence KL symétrique et perte cross-entropy, réduisant le biais tout en maintenant la précision.

Benchmarks Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·19 mai

AdaGraph: A Graph-Native Clustering Algorithm That Overcomes the Curse of Dimensionality and Enables Scientific Discovery

AdaGraph est un algorithme de clustering graph-native qui élimine la malédiction de la dimensionnalité en opérant sur la topologie des graphes kNN plutôt que sur les distances euclidiennes. Testé sur 10 benchmarks synthétiques (d=10 à 5000) et trois domaines scientifiques (génomique, NLP, matériaux), il surpasse HDBSCAN, WGCNA et autres méthodes sans spécifier k a priori.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Representational Alignment with Chemical Induced Fit for Molecular Relational Learning

ReAlignFit, une méthode d'apprentissage relationnel moléculaire, améliore la stabilité des modèles en alignant les représentations de sous-structures via un biais inspiré du mécanisme chimique d'ajustement induit. Testée sur 9 datasets, elle surpasse les modèles existants et renforce la robustesse face aux changements de distribution (règles et scaffolds).

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Naturalistic Computational Cognitive Science: Towards generalizable models and theories that capture the full range of natural behavior

Article de recherche proposant d'intégrer les progrès en IA aux méthodes de sciences cognitives pour construire des théories généralisables. Les auteurs argumentent que les paradigmes expérimentaux naturalistes et les modèles computationnels capables de les accommoder sont nécessaires pour comprendre l'intelligence naturelle et assurer la généralisation des théories.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

COLSON: Controllable Learning-Based Social Navigation via Diffusion-Based Reinforcement Learning

COLSON applique l'apprentissage par renforcement basé sur diffusion à la navigation sociale de robots mobiles en environnements dynamiques. La méthode dépasse les approches gaussiennes en flexibilité d'action et s'adapte à des scénarios non vus en entraînement (obstacles statiques, objectifs variables) sans réentraînement.

Reinforcement learning Robotique Papers

SIG

HYP

arXiv cs.AI·19 mai

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

UniversalRAG est un framework RAG multi-modal qui récupère et intègre des connaissances de sources hétérogènes (texte, images, vidéos) à granularités variables. Il introduit le routage conscient de la modalité pour éviter le biais intra-modal et organise chaque modalité en niveaux de granularité. Validé sur 10 benchmarks, il surpasse les baselines mono-modales et unifiées.

RAG Vision Génération de vidéos

SIG

HYP

arXiv cs.AI·19 mai

Catastrophic Overfitting, Entropy Gap and Participation Ratio: A Noiseless $l^p$ Norm Solution for Fast Adversarial Training

Article arXiv proposant une solution au surapprentissage catastrophique (CO) en entraînement adversarial rapide. Les auteurs contrôlent la norme lp d'entraînement plutôt que d'ajouter du bruit ou de la régularisation. Ils quantifient la concentration de gradient via le Participation Ratio et l'entropie, développant un FGSM-lp adaptatif qui ajuste automatiquement la norme d'entraînement.

Sécurité IA Alignement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies

DexWild propose un système low-cost pour collecter des données de manipulation dextère via des gestes humains naturels. Le framework co-entraîne sur démonstrations humaines et robotiques, atteignant 68,5% de succès en environnements inédits (4× mieux que robot seul) et 5,8× meilleure généralisation cross-embodiment.

Robotique Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·19 mai

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Étude montrant que l'oubli dans les LLM supprime l'information en surface seulement : un fine-tuning minimal restaure le comportement original. Framework d'analyse au niveau représentationnel (PCA, CKA, Fisher information) révèle quatre régimes d'oubli selon réversibilité et catastrophicité. Identifie cas d'oubli irréversible ciblé.

Sécurité IA Alignement Évaluations

SIG

HYP