mai 2026

3149 articles

Content-Style Identification via Differential Independence

Nouvel article arXiv proposant CSDI (content-style differential independence) pour identifier les facteurs de contenu et style dans les modèles génératifs multi-domaines. Relaxe les conditions d'indépendance statistique antérieures via une contrainte d'orthogonalité sur les sous-espaces jacobiens. Démontre l'identifiabilité même avec contenu/style dépendants et jacobien dense.

Papers Génération d'images Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

SynPro, un framework de génération de données synthétiques, aide les LLM à mieux apprendre à partir de corpus organiques limités via rephrasage et reformatage. Optimisé par RL, il déverrouille 3.7-5.2x plus de tokens effectifs que la répétition simple sur des modèles de 400M et 1.1B, surpassant même l'oracle sans contrainte de données à l'échelle 1.1B.

Reinforcement learning Benchmarks Open source

SIG

HYP

arXiv cs.AI·19 mai

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

HINT-SD propose une auto-distillation ciblée pour entraîner des agents LLM sur des horizons longs. La méthode utilise l'historique complet de trajectoire pour identifier les actions pertinentes aux échecs et applique la distillation conditionnée par feedback uniquement sur ces segments. Sur BFCL v3 et AppWorld, elle améliore les baselines de 18,80% tout en réduisant le temps par étape d'entraînement de 2,26×.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Multi-agent AI systems outperform human teams in creativity

Des équipes multi-agents basées sur LLM surpassent les équipes humaines en créativité (Cohen's d=1.50) sur 4 541 idées d'IA contre 341 idées humaines sur six tâches. L'avantage provient de la nouveauté tout en maintenant l'utilité. Les équipes LLM bénéficient d'une exploration efficace (large dispersion sémantique, chemins courts), tandis que les humains privilégient la cohérence conversationnelle locale.

Multi-agents Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Spiker-LL: An Energy-Efficient FPGA Accelerator Enabling Adaptive Local Learning in Spiking Neural Networks

Spiker-LL est un accélérateur FPGA pour réseaux de neurones impulsionnels (SNN) permettant l'apprentissage local adaptatif en temps réel. Basé sur l'architecture Spiker+, il implémente la règle STSF avec surcharge minimale. Sur MNIST/F-MNIST/DIGITS : 93% de précision, latence <1ms, <0,1 mJ par inférence, sans DSP.

Raisonnement Infrastructure Open source

SIG

HYP

arXiv cs.AI·19 mai

AdaptiveLoad: Towards Efficient Video Diffusion Transformer Training

AdaptiveLoad optimise l'entraînement des Transformers de diffusion vidéo (DiT, MMDiT) en résolvant le déséquilibre de charge causé par la complexité quadratique de l'attention. Deux composants : équilibrage adaptatif dual et kernel CUDA LayerNorm-Modulate fusionné. Sur Wan 2.1 : déséquilibre computationnel réduit de 39% à 18,9%, utilisation VRAM +22,7%, débit +27,2%.

Génération de vidéos Infrastructure Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

BacktestBench est le premier benchmark large-scale pour le backtesting quantitatif automatisé, contenant 18 246 paires QA annotées à partir de 6 millions de données de marché réelles. AutoBacktest, un système multi-agent, traduit les stratégies en langage naturel en backtests reproductibles via coordination Summarizer-Retriever-Coder. Évaluation sur 23 LLMs identifie les facteurs clés de performance.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·19 mai

A More Word-like Image Tokenization for MLLMs

DiVT (Disentangled Visual Tokenization) regroupe les embeddings de patches en unités sémantiques cohérentes pour les MLLMs, créant des tokens visuels discrets et significatifs plutôt qu'un flux continu. Adapte le budget de tokens à la complexité de l'image, réduisant mémoire et latence tout en améliorant la compatibilité avec les LLMs.

Vision Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Self-Improving Tabular Language Models via Iterative Reward-Guided Post-Training

TabGRAA, une méthode d'alignement par avantage relatif de groupe, améliore les modèles de langage tabulaires via post-entraînement itératif guidé par récompense. Sur cinq benchmarks, elle surpasse DPO, KTO et NPO adaptés, optimisant le compromis fidélité-utilité-confidentialité sans supervision supplémentaire.

Reinforcement learning Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

Babel est une méthode de jailbreak black-box qui exploite une vulnérabilité dans l'alignement de sécurité des LLM : la sécurité repose sur peu de têtes d'attention éparses, laissant l'espace représentationnel faiblement surveillé. Via obfuscation optimisée et raffinement itératif, Babel atteint 82,67% de succès sur GPT-4o et 78,33% sur Claude-3-5-haiku en ~40 requêtes.

Sécurité IA Alignement GPT

SIG

HYP

arXiv cs.AI·19 mai

SAFE-SVD: Sensitivity-Aware Fidelity-Enforcing SVD for Physics Foundation Models

SAFE-SVD propose une méthode de compression pour les modèles fondamentaux de physique (PFM) qui préserve la fidélité physique. La technique modélise la sensibilité des couches dans l'espace fonctionnel de sortie, évitant la dégradation sévère des performances causée par les méthodes conventionnelles. Les expériences montrent des gains substantiels en ratios de compression tout en maintenant la précision.

Papers Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

ESI-Bench est un benchmark pour l'intelligence spatiale incarnée couvrant 10 catégories de tâches sur OmniGibson. Les agents doivent combiner perception, locomotion et manipulation pour accumuler activement des preuves. Les expériences montrent que l'exploration active surpasse les approches passives, mais les défaillances proviennent surtout de mauvais choix d'action plutôt que de perception faible.

Vision Robotique Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders

Étude sur les biais de popularité dans les systèmes de recommandation génératifs (GRs). Les auteurs identifient que ce biais provient d'une faille d'optimisation au niveau des tokens et d'une tokenization d'items non différenciée. Ils proposent Ghost, un GR avec optimisation asymétrique unlikelihood et tokenization skeleton-founded, validé sur 3 datasets.

Papers Benchmarks Alignement

SIG

HYP

arXiv cs.AI·19 mai

PRISMat: Policy-Driven, Permutation-Invariant Autoregressive Material Generation

PRISMat est un modèle autorégressif permutation-invariant pour la génération de matériaux cristallins. Plus léger et rapide que les LLMs, il réduit l'erreur de prédiction de l'énergie de clivage et de la fonction de travail par 4× (MAE 0.188 eV/Å² et 2.79 eV). Applicable à la découverte haut débit de matériaux.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·19 mai

A Global-Local Graph Attention Network for Traffic Forecasting

Nouvel article arXiv proposant GLGAT (Global-Local Graph Attention Network) pour la prédiction du trafic. Le modèle combine une matrice d'attention globale pour l'ensemble du graphe et des matrices d'attention locales par sommet, avec encodage par paires et matrice d'adjacence basée sur les événements. Tests sur deux datasets réels montrent des performances compétitives.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Scalable Uncertainty Reasoning in Knowledge Graphs

Thèse proposant un cadre modulaire pour raisonner sur l'incertitude dans les graphes de connaissances à trois niveaux : valeurs d'attributs imprécises, existence probabiliste de triplets, et schéma incomplet. Combine littéraux probabilistes, circuits probabilistes tractables via compilation SPARQL, et plongements géométriques pour le raisonnement de schéma.

Raisonnement RAG

SIG

HYP

arXiv cs.AI·19 mai

Observation-Aligned Mask Priors for Learning Physical Dynamics from Authentic Occlusions

Un framework apprend la distribution des masques d'occlusion authentiques via Bayesian Flow Networks pour entraîner des modèles de diffusion sur des observations incomplètes. Testé sur données océanographiques satellites (256×256), il améliore MSE et PSNR comparé aux baselines en évitant les zones mortes de requête.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.AI·19 mai

From Prompts to Protocols: An AI Agent for Laboratory Automation

Un agent IA intégrant LLM et orchestration de laboratoire permet aux scientifiques de créer et monitorer des protocoles automatisés en langage naturel. Testé sur trois labs simulés (chimie, biologie, matériaux), l'agent atteint 97% de succès à la première tentative et réduit d'un ordre de magnitude les actions requises.

Agents IA Raisonnement Outils

SIG

HYP

arXiv cs.AI·19 mai

AgentWall: A Runtime Safety Layer for Local AI Agents

AgentWall est une couche de sécurité runtime pour agents IA locaux. Elle intercepte les actions proposées par l'agent avant exécution, les évalue contre une politique déclarative explicite, requiert approbation humaine pour opérations sensibles, et enregistre un audit complet. Implémentée comme proxy MCP et plugin OpenClaw, elle atteint 92,9% de précision d'application de politique avec surcharge sub-milliseconde.

Agents IA Sécurité IA MCP

SIG

HYP

arXiv cs.AI·19 mai

Cross-Domain Molecular Relational Learning: Leveraging Chemical Structure-Activity Analysis

DisTrans, un réseau d'entraînement adversarial, optimise l'apprentissage relationnel moléculaire cross-domaine en intégrant structures topologiques et modalités visuelles. Via inversion de gradient et alignement sémantique des groupes fonctionnels, la méthode surpasse 16 baselines sur deux stratégies cross-domaine.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.AI·19 mai

EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective

EvoMemBench est un benchmark unifié évaluant la mémoire des agents LLM selon deux axes : portée (intra-épisode vs. inter-épisode) et contenu (orienté connaissance vs. exécution). Comparaison de 15 méthodes de mémoire : les baselines long-contexte restent compétitives, les méthodes par récupération dominent pour les tâches intensives en connaissances, les méthodes procédurales excèlent pour l'exécution.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

AMARIS introduit un système de mémoire persistante pour améliorer les rubriques d'évaluation dans l'entraînement par RL des LLMs. Le système accumule les diagnostics d'évaluation au fil du temps, utilise la récupération statique et dynamique pour contextualiser les modifications de rubriques, et ajoute ~5% de surcharge temporelle. Les expériences montrent des gains constants sur les domaines fermés et ouverts.

Reinforcement learning Fine-tuning Évaluations

SIG

HYP

arXiv cs.AI·19 mai

MCQ Difficulty Prediction via Modeling Learner Heterogeneity Using Data-Driven Cognitive Profiling

Méthode de prédiction de difficulté d'MCQ basée sur des profils cognitifs data-driven. Framework persona utilisant analyse de classes latentes (LCA) sur dataset EEDI, simulation LLM des distributions de réponses par persona, agrégation avec contexte thématique et régression Ridge. Amélioration : MSE 0.367→0.274, R²=0.686.

Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

LongMINT est un benchmark évaluant la capacité des agents à gérer la mémoire dans des contextes longs (jusqu'à 1,8M tokens) avec interférences multiples. 15.6k paires QA sur 4 domaines (suivi d'état, dialogue, révisions Wikipedia, commits GitHub). 7 systèmes testés (LLMs, RAG, agents) obtiennent 27,9% de précision moyenne, limités par la récupération et la construction mémoire.

Agents IA Benchmarks RAG

SIG

HYP

arXiv cs.AI·19 mai

Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning

Distinguishable Deletion (D²) unifie suppression de connaissance et refus pour l'oubli des LLM. La méthode utilise un index énergétique pour effacer les connaissances indésirables dans les représentations latentes plutôt que des tokens spécifiques, évitant la suppression biaisée et la réémergence de contenu nuisible. Energy-based Unlearning Alignment (EUA) applique ce mécanisme à l'entraînement et l'inférence.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.AI·19 mai

VolTA-3D: Self-Supervised Learning for Brain MRI using 3D Volumetric Token Alignment

VolTA-3D est un framework Vision Transformer 3D auto-supervisé pour l'IRM cérébrale. Il aligne des tokens globaux et locaux en paradigme étudiant-enseignant et reconstruit les structures anatomiques. Évalué sur segmentation hippocampique et classification (sexe, Alzheimer), il surpasse les baselines et démontre une meilleure transférabilité inter-domaines.

Vision Papers

SIG

HYP

arXiv cs.AI·19 mai

SLASH the Sink: Sharpening Structural Attention Inside LLMs

Les LLMs reconstruisent spontanément la topologie des graphes via des patterns d'attention « sawtooth », mais cette compréhension structurelle est diluée par l'attention sink. SLASH, une solution sans entraînement, réamplifie cette compréhension via une redistribution d'attention plug-and-play, montrant des gains significatifs sur tâches graphiques et prédiction moléculaire.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

The Token Games: Evaluating Language Model Reasoning with Puzzle Duels

TTG (Token Games) est un framework d'évaluation où les modèles de langage se défient mutuellement en créant des puzzles de programmation. Le système utilise des duels par paires et des ratings Elo pour comparer 10 modèles frontier. Les résultats correspondent aux benchmarks existants (Humanity's Last Exam) pour moins de 200 USD sans curation humaine.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Nouvelle méthode IBAL pour renforcer la robustesse du MARL face aux perturbations d'interactions inter-agents. Le framework utilise une approche théorique de l'information pour construire des attaques qui dégradent la coordination en perturbant observations et actions, puis entraîne les agents à rester fiables. Amélioration démontrée sur baselines existants et scénarios d'agents manquants.

Multi-agents Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Stable Audio 3

Stable Audio 3 est une famille de modèles de diffusion latente (petit, moyen, grand) pour la génération et l'édition audio variable. Les modèles utilisent un nouvel autoencoder sémantique-acoustique et un post-entraînement adversarial pour générer de la musique et des sons en moins de 2s sur H200 ou quelques secondes sur MacBook Pro M4. Les poids petit et moyen sont publiés.

Open source

SIG

HYP

arXiv cs.AI·19 mai

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

TTE-Flash remplace les traces explicites de Chain-of-Thought par des tokens latents pour accélérer les représentations multimodales. Le modèle TTE-Flash-2B surpasse ses équivalents CoT explicites sur MMEB-v2 tout en réduisant le coût d'inférence. Les tokens latents restent interprétables textuellement et visuellement.

Raisonnement Vision Embeddings

SIG

HYP

arXiv cs.AI·19 mai

Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents

Calibrate-Then-Act (CTA) est un framework permettant aux agents LLM de raisonner explicitement sur les compromis coût-incertitude avant d'agir. En fournissant une estimation préalable de l'état de l'environnement, CTA améliore la prise de décision optimale sur des tâches de QA, retrieval-augmented et lecture de fichiers en codage.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

EmoMind: Decoding Affective Captions from Human Brain fMRI

EmoMind décode des descriptions affectives directes depuis les signaux fMRI du cerveau. Le système récupère d'abord une description neutre de la scène visuelle, puis la réécrit en utilisant un vecteur émotionnel continu de 34 dimensions extrait du même enregistrement fMRI. Évalué sur deux datasets indépendants, EmoMind surpasse GPT-4 avec étiquettes discrètes sur tous les axes de validation.

Vision Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Improving BM25 Code Retrieval Under Fixed Generic Tokenization: Adaptive q-Log Odds as a Drop-In BM25 Fix

Amélioration de BM25 pour la récupération de code via une transformation q-logarithmique de l'IDF (Indice de Fréquence Inverse). Sur CoIR CodeSearchNet Go, NDCG@10 passe de 0.2575 à 0.4874 (+89.3%). La méthode est un drop-in fix sans coût de latence, paramétrée par la densité hapax du corpus.

Génération de code RAG Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Universal Dynamics of Punctuated Progress

Étude de 6,8M solutions sur 6,7K tâches dans 9 domaines (matériaux, biologie structurale, IA, biomédecine, data science, informatique théorique, F1, construction). Trois patterns universels identifiés : temps d'attente heavy-tailed, accumulation sublinéaire des records, corrélation temporelle des ruptures. Un modèle minimal unifie radical innovation et raffinements incrementaux.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Whispers in the Noise: Surrogate-Guided Concept Awakening via a Multi-Agent Framework

ConceptAgent, un framework multi-agent sans entraînement, contourne l'effacement de concepts dans les modèles de diffusion en exploitant la dynamique du débruitage. L'approche black-box réveille des concepts supprimés en initialisant la trajectoire de débruitage via des états bruyants guidés par substitut, sans accès aux paramètres du modèle.

Multi-agents Sécurité IA Génération d'images

SIG

HYP

arXiv cs.AI·19 mai

Domain Incremental Learning for Pandemic-Resilient Chest X-Ray Analysis

Méthode de continual learning basée sur replay pour adapter les modèles de détection de pneumonie aux variations de domaines cliniques sans oubli catastrophique. Incorpore un replay équilibré par classe et une perte pondérée dynamique. Atteint 88,66% de précision sur PneumoniaMNIST avec 5 domaines simulés, surpassant Experience Replay et Fine-Tuning.

Reinforcement learning Vision Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Multi-Object Tracking Consistently Improves Wildlife Inference

Des chercheurs appliquent le Multi-Object Tracking (MOT) aux données de pièges photographiques pour améliorer la classification d'espèces sauvages. En fusionnant les probabilités softmax sur des trajectoires temporelles, la méthode gagne 5,1% de F1-Score pondéré sur les meilleurs modèles MOT, éliminant les prédictions incohérentes entre images consécutives.

Vision Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Agents for Experiments, Experiments for Agents: A Design Grammar for AI-Enabled Experimental Science

SEED est un framework qui représente les conditions expérimentales en graphes d'acteurs typés pour étudier les systèmes multi-agents et workflows humain-IA. Il permet de décrire les conditions, évaluer la nouveauté structurelle et générer des designs candidats sous contraintes. Test empirique sur triage médical montre que SEED-guided designs offrent meilleure traçabilité des changements d'interaction et gouvernance.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Stabilizing Temporal Inference Dynamics for Online Surgical Phase Recognition

Nouvelle approche pour stabiliser les prédictions temporelles en reconnaissance de phases chirurgicales. Propose TEC loss (entraînement), EGTP (inférence) et TFI (métrique). Réduit la fragmentation des prédictions sur Cholec80 et AutoLaparo sans dégrader la précision frame-wise.

Vision Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization

Nouvel algorithme d'imitation adversariale combinant apprentissage hors-politique avec stabilisation par double Q-network. Réduit l'inefficacité échantillonnale de GAIL en éliminant la dépendance aux algorithmes on-policy (TRPO) et l'ingénierie de récompenses.

Reinforcement learning Agents IA Papers

SIG

HYP

arXiv cs.AI·19 mai

SLEIGHT-Bench: A Benchmark of Evasion Attacks Against Agent Monitors

SLEIGHT-Bench est un benchmark de 40 attaques d'évasion contre des moniteurs d'agents de codage basés sur LLM. Claude Opus 4.6 avec extended thinking détecte seulement 23% des attaques (24/40 jamais détectées). Les stratégies d'évasion exploitent les priors du modèle, l'ambiguïté des instructions et la manipulation d'état.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Counterparty Modeling is Not Strategy: The Limits of LLM Negotiators

Des chercheurs testent la capacité des LLM à négocier dans un environnement de marchandage multi-attributs contrôlé. Les agents modélisent correctement les préférences de l'adversaire mais ne convertissent pas cette connaissance en stratégie gagnante. Les accords finaux sont dictés par les ancres initiales plutôt que par les utilités réelles.

Raisonnement Agents IA Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Semantic Smoothing via Novel View Synthesis for Robust SAR Image Classification

Défense contre les perturbations adversariales pour la classification SAR via lissage sémantique. Remplace le bruit isotrope par des transformations géométriques générées par synthèse de nouvelles vues, conditionnées sur la géométrie d'acquisition. Améliore la robustesse contre FGSM, PGD, OTSA, SMGAA tout en augmentant la précision en classification nette.

Sécurité IA Vision Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Recall Isn't Enough: Bounding Commitments in Personalized Language Systems

Article arXiv proposant CBEA+LCV, une méthode pour valider les engagements dans les systèmes de langage personnalisés. Plutôt que traiter la personnalisation comme un problème de rappel, l'approche structure les contraintes avant génération. Sur 360 tests, atteint zéro défaillance à 0.49-0.60 disponibilité contre 0.003-0.092 pour les baselines, avec 74-75% réduction de payload.

Raisonnement Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Baba in Wonderland: Online Self-Supervised Dynamics Discovery for Executable World Models

Alice est un système d'apprentissage de modèles monde exécutables en ligne qui découvre les dynamiques d'environnement sans descriptions de règles ni signaux de récompense. L'agent induit les lois de transition par interaction seule, en traitant les conflits de préservation comme signal structurel pour raffiner les hypothèses. Évaluation sur Baba in Wonderland montre une amélioration substantielle.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·19 mai

Multi-Paradigm Agent Interaction in Practice:A Systematic Analysis of Generator-Evaluator, ReAct Loop,and Adversarial Evaluation in the buddyMe Framework

buddyMe, framework open-source multi-modèles, intègre trois paradigmes d'interaction d'agents : orchestration multi-agents (Generator-Evaluator), boucles ReAct, interaction augmentée par mémoire. Pipeline 5 étapes testé sur 4 cas réels (guides musée, météo, planification). Résultats : détection 20% omissions requêtes, 30% invocations outils redondantes, consensus adversarial en 2-3 rounds (70% cas).

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Evidential Information Fusion on Possibilistic Structure

Article proposant une transformation réversible entre fonctions de croyance et structures possibilistes pour dépasser les limitations de la règle de Dempster. Introduit un réseau d'évolution des croyances et une famille de normes triangulaires pour fusionner des informations évidentielles de sources non-distinctes avec gestion flexible des conflits.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

AnchorDiff: Topology-Aware Masked Diffusion with Confidence-based Rewriting for Radiology Report Generation

AnchorDiff propose un framework de diffusion masquée pour la génération de rapports radiologiques, intégrant des ancres cliniques dérivées de graphes de connaissances. Contrairement aux modèles autorégressifs traditionnels, cette approche bidirectionnelle utilise une stratégie d'entraînement sensible à la topologie basée sur RadGraph et un raffinement itératif. SOTA sur MIMIC-CXR et MIMIC-RG4.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·19 mai

F2IND-IT! -- Multimodal Fuzzy Fake Indian News Detection using Images and Text

Cadre multimodal pour détecter les fausses informations dans les médias indiens combinant images et texte. Utilise ResNet-50 pour les features visuelles, DistilBERT pour les embeddings textuels, et un système ANFIS pour générer un score de fiabilité flou. Évalué sur le dataset IFND avec résultats supérieurs en accuracy, precision, recall et F1-score.

Vision Embeddings Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Towards Sustainable Growth: A Multi-Value-Aware Retrieval Framework for E-Commerce Search

GrowthGR, un framework de retrieval pour e-commerce, résout le problème du « Matthew effect » en équilibrant conversion immédiate et croissance long-terme des nouveaux produits. Déployé sur Taobao, il combine prédiction de valeur transactionnelle (ItemLTV) et optimisation multi-valeurs (MoPO), atteignant +5.3% GMV nouveaux items et +0.3% GMV global.

RAG Reinforcement learning Business

SIG

HYP

arXiv cs.AI·19 mai

Towards Robust Argumentative Essay Understanding via TIDE: An Interactive Framework with Trial and Debate

TIDE est un framework de prompt optimization basé sur un mécanisme de Trial and Debate pour améliorer la compréhension d'essais argumentatifs. Évalué sur trois tâches (Automated Essay Scoring, Argument Component Detection, Argument Relation Identification), il réduit l'impact des données bruitées et améliore la stabilité de l'optimisation.

Prompt engineering Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

MetaCogAgent: A Metacognitive Multi-Agent LLM Framework with Self-Aware Task Delegation

MetaCogAgent est un framework multi-agent LLM où chaque agent évalue sa compétence avant d'exécuter une tâche via une Metacognitive Self-Assessment Unit. Le système combine évaluation d'incertitude et profils historiques pour router les tâches vers les agents les plus adaptés. Sur le benchmark MetaCog-Eval (700 tâches), il atteint 82.4% de précision (+8.7% vs baselines) avec 5% moins d'appels API qu'AutoGen.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

HyperPersona: A Multi-Level Hypergraph Framework for Text-Based Automatic Personality Prediction

HyperPersona propose un framework basé hypergraphes pour prédire la personnalité à partir de texte. Le modèle capture explicitement la hiérarchie du langage (document, phrase, mot) via une structure hypergraphique, puis utilise un encodeur transformer pour modéliser les dépendances multi-niveaux. Résultats supérieurs sur les Big Five dimensions de personnalité.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Verify-Gated Completion as Admission Control in a Governed Multi-Agent Runtime: A Bounded Architecture Case Study

Étude d'un pattern verify-gated completion pour contrôler les systèmes multi-agents persistants. Implémentation bornée : 99.5% de succès de vérification (1,791/1,800 événements), 98.58% d'accord avec les règles de gouvernance. Les résultats restent limités à l'inspectabilité des décisions et au fail-closed ; aucune garantie de sécurité ou couverture au niveau des tâches.

Multi-agents Agents IA Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Étude montrant que les modèles de langage fine-tunés sur les échecs mémorisent plutôt que de généraliser. KinGPT (25M params) surpasse ChessGPT (3B) et C1-4B sur des benchmarks d'échecs, mais l'analyse révèle une reconnaissance de motifs. LLM-Modulo, framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de coups. Code et modèles open-sourcés.

Benchmarks Évaluations Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment

AutoRubric-T2I est un framework qui synthétise automatiquement des rubrics explicites pour évaluer l'alignement texte-image via des juges Vision-Language Model. Utilisant <0.01% des données d'annotation requises par les modèles de récompense traditionnels, il surpasse les baselines sur MMRB2 et améliore la qualité de génération avec Flow-GRPO sur modèles de diffusion.

Génération d'images Vision Évaluations

SIG

HYP

arXiv cs.AI·19 mai

WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games

WebGameBench est un benchmark évaluant si les agents de code peuvent transformer une spécification de jeu web en application jouable dans un navigateur. Sur 111 tâches et 12 agents, le meilleur atteint 76,9% de taux utilisable mais seulement 20,2% excellent, révélant un écart entre livraison minimale et satisfaction complète des exigences.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents

CMI (Causal Memory Intervention) sélectionne les souvenirs pertinents pour les agents LLM long-horizon via interventions causales contrôlées, plutôt que par similarité sémantique. Benchmark Causal-LoCoMo introduit avec mémoires utiles, distracteurs et souvenirs nuisibles synthétiques. CMI surpasse baselines (vector, graph, reflection, summary) en robustesse face aux mémoires trompeuses.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·19 mai

Byzantine-Resilient Federated Learning via QUBO-Based Client Selection on Quantum Annealers

Approche de recuit quantique pour sélectionner les clients fiables en apprentissage fédéré face aux attaques byzantines. Reformulation en problème QUBO résolvant conjointement les sous-ensembles de clients les plus proches. MultiSignal (ensemble hybride) atteint 95,3% de détection à 100 clients sur MNIST vs 91,8% pour MultiKrum classique, avec gains majeurs sur Sparse Lie (+23,2 points) et Advanced Lie (+4,8 points).

Reinforcement learning Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models

Les chercheurs identifient l'Entropy-Gradient Inversion, une corrélation négative entre l'entropie des tokens et les gradients de logits, comme signature géométrique des capacités de raisonnement des grands modèles. Ils proposent CorR-PO, une méthode d'optimisation par renforcement intégrant cette signature dans la régularisation des récompenses, surpassant les baselines sur plusieurs benchmarks de raisonnement.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Interactive Evaluation Requires a Design Science

Position paper sur l'évaluation interactive des LLM. Les modèles déployés comme systèmes agissant dans le temps (outils, environnements, agents) nécessitent un paradigme d'évaluation distinct des benchmarks statiques. Les auteurs proposent une taxonomie, des principes de design et des standards de reporting pour évaluer processus, récupérabilité, coordination, robustesse et performance système.

Agents IA Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

SWIM aligne les représentations vision-langage pour la compréhension fine d'objets vidéo via prompts textuels seuls. Utilise la supervision de masques en entraînement pour guider l'attention cross-modale. Construit NL-Refer, dataset enrichi avec expressions référentes précises. Surpasse les méthodes basées prompts visuels sur les benchmarks.

Vision RAG Embeddings

SIG

HYP

arXiv cs.AI·19 mai

PROTEA: Offline Evaluation and Iterative Refinement for Multi-Agent LLM Workflows

PROTEA est une interface pour déboguer et affiner les workflows multi-agents LLM hors ligne. Elle évalue les sorties intermédiaires avec des rubriques configurables, localise les goulots d'étranglement via le graphe du workflow, et génère des révisions de prompts ciblées. Sur deux workflows en production, PROTEA améliore la précision de 64,3% à 83,9% et le Hit@5 de 0,30 à 0,38.

Multi-agents Agents IA Prompt engineering

SIG

HYP

arXiv cs.AI·19 mai

Evaluating Cognitive Age Alignment in Interactive AI Agents

ChildAgentEval, un benchmark interactif inspiré de l'échelle WISC, évalue l'alignement cognitif des agents IA multimodaux sur des tâches de raisonnement adaptées à différents âges. Les résultats montrent que les agents actuels échouent sur des tâches simples qu'un enfant résout facilement, révélant un écart fondamental entre l'IA et l'intelligence humaine.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Agentic Chunking and Bayesian De-chunking of AI Generated Fuzzy Cognitive Maps: A Model of the Thucydides Trap

Génération automatique de cartes cognitives floues (FCM) causales à partir de texte via agents LLM qui segmentent le texte en chunks chevauchants. Mélange convexe des FCM de chunks pour former un graphe de connaissance FCM cyclique. Inférence bayésienne au niveau opérateur produisant des FCM « de-chunkées ». Démonstration sur le modèle du Piège de Thucydide : 7/8 FCM prédisent un conflit armé.

Agents IA Raisonnement Gemini

SIG

HYP

arXiv cs.AI·19 mai

SVFSearch: A Multimodal Knowledge-Intensive Benchmark for Short-Video Frame Search in the Gaming Vertical Domain

SVFSearch est un benchmark multimodal pour la recherche de frames dans des vidéos courtes du domaine gaming chinois. Il contient 5 000 exemples de test et 4 198 exemples d'entraînement basés sur des scènes de jeux réelles. L'évaluation compare QA direct, RAG, agents Plan-Act-Replan et modèles de recherche appris : le meilleur modèle open-source atteint 66,4%, le meilleur agent pratique 79,1%, oracle 95,4%.

Benchmarks Agents IA RAG

SIG

HYP

arXiv cs.AI·19 mai

Shared Backbone PPO for Multi-UAV Communication Coverage with Connection Preservation

Algorithme Shared Backbone PPO pour l'optimisation multi-agents de couverture de communication par essaims de drones. Partage du module de base entre réseaux Actor et Critic améliore l'entraînement. Intégration d'agrégation d'information graphique pour modéliser les conditions de communication inter-agents.

Reinforcement learning Multi-agents Agents IA

SIG

HYP

arXiv cs.AI·19 mai

TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?

TeleCom-Bench est un benchmark de 22 678 échantillons évaluant 8 LLMs sur des tâches télécom réelles (reconnaissance d'intention, extraction d'entités, analyse de cause racine, génération de solutions). Les modèles atteignent 90% en tâches linguistiques mais s'effondrent à 30% en exécution procédurale, révélant un « Execution Wall » : les LLMs diagnostiquent bien mais échouent comme ingénieurs terrain.

Benchmarks Raisonnement Agents IA

SIG

HYP

arXiv cs.AI·19 mai

FLAG: Foundation model representation with Latent diffusion Alignment via Graph for spatial gene expression prediction

FLAG est un framework basé sur la diffusion latente pour prédire l'expression génique spatiale à partir d'images H&E. Il intègre un encodeur graphique spatial et l'alignement avec un Gene Foundation Model pour résoudre la malédiction de la dimensionnalité génique et préserver les relations biologiques (coordination génique, distribution spatiale). Nouvelles métriques d'évaluation : GSC et SSC.

Papers Vision Raisonnement

SIG

HYP

arXiv cs.LG·19 mai

Edge-AI-Driven Learning-to-Rank for Decentralized Task Allocation in Circular Smart Manufacturing

Framework de allocation de tâches décentralisée pour manufactures circulaires, utilisant Edge-AI et learning-to-rank. Chaque machine évalue les tâches avec ses informations locales (capacité, queue, contention). Résultats : réduction des délais, meilleure adhérence aux deadlines, efficacité énergétique améliorée en simulation.

Agents IA Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·19 mai

LEAP: Learnable End-to-End Adaptive Pruning of Large Language Models

LEAP propose une méthode d'élagage non-structuré end-to-end pour LLM utilisant une relaxation Bernoulli-Gumbel-sigmoid par poids. Sur cinq familles de modèles (0.5B–8B) à 50–60% de sparsité, LEAP améliore la précision zero-shot de +2.59 points en moyenne vs ADMM.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Evidence-Grounded Frontier Mapping and Agentic Hypothesis Generation in Nanomedicine

pArticleMap combine embeddings d'articles, analyse de graphes de similarité et workflows LLM audités pour générer des hypothèses de recherche fondées sur des preuves en nanomédecine. Le système cible les régions de faible densité et interfaces de clusters pour identifier des directions de recherche. Évaluation rétrospective : 10,8% de taux de récupération d'or, recall@10 de 15,9%, taux de voisinage futur de 61,0%.

Agents IA RAG Embeddings

SIG

HYP

arXiv cs.AI·19 mai

A Practical Noise2Noise Denoising Pipeline for High-Throughput Raman Spectroscopy

Pipeline de débruitage Noise2Noise pour spectroscopie Raman haute débit utilisant un autoencodeur convolutif 1D. Entraîné sur acquisitions courtes répétées (5 ms), sans référence externe. Évalué sur échantillon minéral : RMSE, SNR, SSIM et classification K-means. Préserve la cohérence chimique tout en accélérant l'acquisition.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·19 mai

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

VISAFF est un framework pour la reconnaissance d'émotions en conversation (ERC) utilisant des modèles vision-langage. Il combine deux étapes : ancrage affectif centré sur le locuteur et complémentation affective guidée par la fiabilité. L'approche sans fine-tuning exploite les capacités de raisonnement de VLMs gelés, intégrant signaux visuels, textuels et acoustiques pour améliorer la précision.

Vision Multi-agents Papers

SIG

HYP

arXiv cs.AI·19 mai

Query-Conditioned Knowledge Alignment for Reliable Cross-System Medical Reasoning

QCEA reformule l'alignement d'entités médicales comme un problème conditionné par requête, intégrant encodage sémantique et apprentissage de graphes. Évalué sur les graphes TCM-WM (SymMap), le modèle améliore les métriques Hit@K et MRR, et démontre gains en RAG pour la récupération de preuves et la précision des réponses.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Learning Lifted Action Models from Traces with Minimal Information About Actions and States

Apprentissage de modèles d'actions STRIPS+ levés à partir de traces partielles. Les auteurs relaxent les hypothèses précédentes en permettant une observabilité partielle des actions et états. Trois cas sont formalisés : sans observabilité d'état, avec observabilité complète de certains prédicats, avec observabilité locale. Résultats de complétude et expériences inclus.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

SCICONVBENCH est un benchmark évaluant la capacité des LLM à clarifier des problèmes mal posés en science computationnelle via dialogue multi-tour. Couvre mécanique des fluides, mécanique solide, science des matériaux et EDP. Les meilleurs modèles résolvent seulement 52,7% des cas d'ambiguïté en mécanique des fluides, mais performent mieux sur la détection d'incohérences.

Benchmarks Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Position: A Three-Layer Probabilistic Assume-Guarantee Architecture Is Structurally Required for Safe LLM Agent Deployment

Article de position argumentant qu'une architecture à trois couches probabilistes (intent/conformité, validité environnementale, faisabilité dynamique) est structurellement nécessaire pour déployer des agents LLM sûrs. Chaque couche doit certifier indépendamment une dimension de sécurité via des garanties probabilistes composables.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Democratizing Large-Scale Re-Optimization with LLM-Guided Model Patches

Un framework agentic utilise un LLM pour assister les utilisateurs dans la ré-optimisation de modèles OR en temps réel. L'LLM traduit les demandes en modifications structurées du modèle, sélectionne des techniques de ré-optimisation et retourne des solutions implémentables. Testé sur chaîne logistique et planification d'examens universitaires.

Agents IA Raisonnement RAG

SIG

HYP

arXiv cs.LG·19 mai

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning

QuantFPFlow intègre l'estimation quantique d'amplitude dans l'optimisation stochastique de politique via la formulation de Fokker-Planck. Grover-amplified atteint une accélération quadratique O(1/ε) vs O(1/ε²) classique. Sur tâches continues, surpasse SAC (1295.7 vs 1284.0 reward) et découvre l'optimum global 10.4% plus souvent (33.9% vs 30.7%).

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Optimisation systématique de modèles de diffusion en temps réel sur Apple M3 Ultra (GPU 60 cœurs, 512 GB mémoire unifiée). Combinaison de CoreML, quantization, Token Merging, distillation (SDXS-512) et pipeline caméra 3-threads atteint 22.7 FPS à 512x512. Révèle que les optimisations CUDA ne s'appliquent pas à l'architecture mémoire unifiée d'Apple Silicon.

Génération d'images Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course

Étude d'implémentation de Google Notebook LM dans un cours d'anglais académique (106 étudiants, Hong Kong). Génération de vidéos, podcasts et infographies via RAG. Les étudiants ont apprécié les contenus visuels et multimodaux ; la préférence vidéo corrèle positivement avec les résultats académiques. La charge cognitive élevée impacte négativement les notes.

RAG Évaluations Outils

SIG

HYP

arXiv cs.AI·19 mai

Generative AI in K-12 Classrooms: A Midyear Implementation Report

Rapport intermédiaire sur l'utilisation de Colleague AI dans 12 districts scolaires de Washington State (septembre-décembre 2025). Étude conjointe Colleague AI et AmplifyLearn.AI (Université de Washington) analysant l'engagement des enseignants avec l'IA générative en classe K-12.

Outils Business

SIG

HYP

arXiv cs.AI·19 mai

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusion en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progression de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 5.6pp en raisonnement mathématique.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Train the Trainers -- An Agentic AI Framework for Peer-Based Mental Health Support in Battlefield Environments

Framework agentic IA pour soutien psychologique par pairs en environnement militaire. Soldats formés comme facilitateurs pairs supervisent des agents IA spécialisés (triage, interventions, documentation) en settings sans connectivité. Prototype développé avec U.S. Army Health Center. Objectif : réduire évacuations, accélérer prise en charge, maintenir supervision humaine.

Agents IA Multi-agents Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

SENSE est un framework génératif basé sur diffusion qui synthétise conjointement des images satellite urbaines réalistes et des cartes d'énergie/hauteur de bâtiments alignées. Testé sur NYC, Boston, Lyon et Busan, il génère des données annotées avec <20% de données étiquetées, améliorant la performance de prédiction de 10% IoU et réduisant l'erreur de 3-11% NMBE.

Génération d'images Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

Article théorique proposant des optimiseurs respectant les symétries des architectures neuronales modernes. Introduit des règles de mise à jour équivariantes pour embeddings, têtes LM, MLPs SwiGLU et routeurs MoE. Validation sur modèles denses et sparse MoE (Qwen3, Gemma 3, OLMoE, gpt-oss) montrant amélioration de la perte de validation vs AdamW.

Papers Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency

SAGE, un framework d'auto-évolution, améliore le raisonnement spatial des VLMs en appliquant une cohérence logique via des opérations géométriques et linguistiques. Intégré comme étape de post-training GRPO légère, il corrige les incohérences sous transformations prédictibles et montre des gains sur benchmarks vidéo et spatial.

Vision Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

Framework pour la génération active de graphes de scènes 3D à partir de caméras RGB uniquement, sans capteurs de profondeur. Unifie perception et planification autour d'une représentation structurée. Sur Replica, atteint la parité F1 avec les baselines utilisant la profondeur ground-truth. La sélection de points de vue sémantique détecte 2× plus d'objets qu'une baseline géométrique.

Vision Robotique Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Beyond Imperfect Alternatives with Rulemapping: A Neuro-Symbolic Case Study on Online Hate Speech

Étude neuro-symbolique comparant LLMs contraints par des scaffolds logiques déterministes (Rulemapping) versus prompting libre pour la modération de contenu haineux selon le code pénal allemand (§130). Rulemapping atteint précision 0.80-0.86 et rappel 0.82-0.89 contre 0.34-0.49 en prompting non contraint, éliminant la confusion entre offense morale et illégalité.

Raisonnement Sécurité IA Régulation

SIG

HYP

arXiv cs.AI·19 mai

Taxonomy and Consistency Analysis of Safety Benchmarks for AI Agents

Analyse systématique de 40 benchmarks de sécurité pour agents IA (2023-2026). Les benchmarks présentent des modèles de menace incompatibles, des métriques fragmentées et une couverture de risques incohérente. Test de concordance (Kendall's W = 0.10, p = 0.94) révèle l'absence d'alignement entre évaluations. Publication de métadonnées structurées et standards minimaux de reporting.

Agents IA Sécurité IA Évaluations

SIG

HYP

arXiv cs.LG·19 mai

Mixing Times of Glauber Dynamics on Masked Language Models

Les modèles de langage masqué (MLM) définissent des distributions conditionnelles locales incompatibles avec une distribution jointe globale cohérente. Les auteurs modélisent le rééchantillonnage itératif comme une chaîne de Markov Glauber dynamics et prouvent un temps de mélange O(n log n) sous influence cross-token bornée, mais exhibent une métastabilité exponentielle à basse température.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

UVTran: Accurate Hole-Filling Parameterization with Transformers

UVTran, un framework basé transformers, résout le problème du remplissage de trous N-côtés en CAO. Il prédit une surface de projection auxiliaire via un mécanisme de cross-attention biaisé vers les points de contrôle proches, voxélise les coordonnées et utilise un entraînement multi-résolution. Sur benchmark, il améliore le taux de satisfaction de tolérance de 12% vs baselines industrielles et académiques.

Papers Raisonnement

SIG

HYP

arXiv cs.LG·19 mai

M$^2$FedAQI: Multimodal Federated Learning for Air Quality Prediction on Heterogeneous Edge Devices

M²FedAQI propose un framework fédéré multimodal léger pour la prédiction décentralisée de l'indice de qualité de l'air (AQI) sur des appareils edge hétérogènes. Le système fusionne données visuelles et tabulaires via un mécanisme de modulation de features. Évalué sur PM25Vision et TRAQID, il améliore l'accuracy de 11%, l'AUC de 3,53%, le F1-score de 12,2% et R² de 18% par rapport aux baselines.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

ProxyKV propose un framework de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une Small-Model Proxy légère évalue l'importance du cache KV de manière asynchrone pour le modèle cible. Tests sur Llama-3.1, Qwen-2.5 et Qwen-3 : récupère 98.7% de la précision de KVZip avec speedup jusqu'à 3.21× en prefilling (Llama-3.1-8B, dual-GPU) et maintient les gains jusqu'à 170k tokens.

Llama Qwen Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Federated Nested Learning: Collaborative Training of Self-Referential Memories for Test-Time Adaptation

FedNL reformule l'apprentissage fédéré comme système d'optimisation imbriquée à trois niveaux. Intègre l'attention linéaire Titans pour adapter les modèles à l'inférence sans entraînement supplémentaire. Testé sur MMLU Non-IID et benchmarks long-contexte avec mémoire d'inférence constante.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

StrLoRA: Towards Streaming Continual Visual Instruction Tuning for MLLMs

StrLoRA introduit un cadre de tuning visuel continu en streaming pour MLLMs. Contrairement aux méthodes existantes limitées à des tâches prédéfinies, StrCVIT traite des flux de données avec tâches dynamiques et entrelacées. StrLoRA utilise un routage d'experts à deux étapes avec sélection consciente des tâches et pondération token-wise, stabilisé par régularisation.

Multi-agents Fine-tuning Vision

SIG

HYP

arXiv cs.AI·19 mai

Leveraging Graph Structure in Seq2Seq Models for Knowledge Graph Link Prediction

GA-S2S combine T5-small et un réseau d'attention graphique relationnel (RGAT) pour la prédiction de liens dans les graphes de connaissances. Le modèle encode conjointement les caractéristiques textuelles et la topologie complète du sous-graphe k-hop autour de l'entité requête. Sur CoDEx, GA-S2S surpasse les baselines Seq2Seq avec un gain de 19% en précision.

Benchmarks RAG Papers

SIG

HYP

arXiv cs.AI·19 mai

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs

Fre-Res propose une compression adaptative des tokens vidéo pour les MLLMs vidéo. Le framework sépare les détails spatiaux (ancres haute-fidélité) et l'évolution temporelle (tokens résidus-fréquence via DCT 1D). Un Spatial-Guided Absorber aligne les dynamiques fréquentielles avec les embeddings visuels. Résultats : performance proche du full-token avec réduction substantielle de la longueur des tokens.

Vision Génération de vidéos Évaluations

SIG

HYP