mai 2026

3149 articles

CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

CoCoReviewBench est un benchmark de 3,900 articles (ICLR, NeurIPS) pour évaluer les systèmes d'IA chargés de la relecture académique. Il corrige les biais des métriques existantes en utilisant des discussions reviewer-auteur-meta-review comme annotations expertes. Les résultats montrent que les reviewers IA souffrent d'hallucinations et que les modèles de reasoning sont plus efficaces.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Language models fail at extended rule following

Les modèles de langage échouent à appliquer des règles simples de manière fiable sur des séquences longues. Test sur 126 variantes : tous les modèles ne peuvent pas compter au-delà d'un seuil dépendant du modèle. Les défaillances sont abruptes et persistent malgré l'augmentation de la taille et du calcul. L'analyse mécanique révèle que les modèles utilisent un nombre fini d'états internes pour simuler le comptage.

Raisonnement Benchmarks Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Geometry-Aware Attention Guidance for Diffusion Models via Modern Hopfield Dynamics

GAG (Geometry-Aware Attention Guidance) améliore les modèles de diffusion sans entraînement supplémentaire en guidant l'attention via la dynamique de Hopfield moderne. Analyse théorique prouve que la discordance sparse-dense agit comme signal d'accélération directionnel. Méthode universelle testée sur FLUX.1, FLUX.2, Qwen-Image avec gains de qualité et surcoût minimal.

Génération d'images Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Human-Certified Module Repositories for the AI Age

Les Human-Certified Module Repositories (HCMR) proposent une architecture pour construire des logiciels fiables dans le développement assisté par IA. Face aux risques de composants non vérifiés dans les écosystèmes modulaires, ce framework combine supervision humaine et analyse automatisée pour certifier les modules et garantir une assemblée sûre par humains et agents IA.

Agents IA Génération de code Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

SPOT (Surgical Post-Training) est un framework de distillation on-policy qui injecte des capacités de raisonnement dans les LLM tout en préservant les connaissances antérieures. Avec 4k paires mathématiques rectifiées, il améliore Qwen3-8B de 6,2% en moyenne en 16 minutes sur 8x H800 GPUs. L'approche utilise une formulation de récompense contrainte par KL pour atténuer l'oubli catastrophique.

Fine-tuning Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

IdGlow est un framework sans masque basé sur Flow Matching pour la génération multi-sujets. Il utilise un ordonnancement adaptatif des timesteps et un mécanisme de gating temporel pour préserver les identités lors de transformations complexes (ex: vieillissement). Une étape DPO affine-grained élimine les artefacts et harmonise les textures.

Génération d'images Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Flowette: Flow Matching with Graphette Priors for Graph Generation

Flowette est un framework de flow matching continu pour la génération de graphes avec motifs récurrents. Le modèle utilise un transformer basé sur GNN pour apprendre un champ de vélocité, intègre des couplages par transport optimal et introduit les graphettes, une famille probabiliste de modèles de structure graphique généralisant les graphons. Résultats SOTA sur plusieurs benchmarks.

Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

GIST propose une méthode de sélection de données ciblée pour l'instruction tuning. Elle remplace les approximations diagonales par un alignement robuste en sous-espace via SVD, récupérant les directions pertinentes pour la tâche. Avec 0,29% du stockage et 25% du temps de calcul, GIST égale ou surpasse les baselines existantes.

Fine-tuning Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·19 mai

CodeScaler: Scaling Code LLM Training and Test-Time Inference via Reward Models

CodeScaler est un modèle de récompense pour l'entraînement et l'inférence de LLM de code. Entraîné sur des données de préférence vérifiées, il surpasse l'RL basé sur l'exécution de +1.55 points sur Qwen3-8B et +4.23 sur Qwen3-14B. À l'inférence, il réduit la latence de 10× tout en maintenant les performances.

Génération de code Reinforcement learning Qwen

SIG

HYP

arXiv cs.AI·19 mai

SkillJect: Effectively Automating Skill-Based Prompt Injection for Skill-Enabled Agents

SkillJect automatise les attaques par injection de prompts contre les agents LLM utilisant des skills modulaires. Le framework cache des payloads malveillants dans des scripts auxiliaires et réécrit les instructions SKILL.md via une stratégie de préambule. Une boucle multi-agent (Attack/Victim/Evaluate) optimise l'efficacité de l'attaque sur plusieurs plateformes et modèles.

Agents IA Sécurité IA Prompt engineering

SIG

HYP

arXiv cs.AI·19 mai

Learning Native Continuation for Action Chunking Flow Policies

Legato est une méthode d'entraînement pour les politiques VLA basées sur des flux d'actions chunked. Elle initialise le débruitage à partir d'un mélange d'actions connues et de bruit, et reshape la dynamique du flux pour assurer la cohérence entre entraînement et inférence. Tests réels : 10% d'amélioration en fluidité de trajectoire et temps de tâche vs RTC.

Vision Génération de code Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Trust the uncertain teacher: distilling dark knowledge via calibrated uncertainty

Calibrated Uncertainty Distillation (CUD) améliore la distillation de connaissances en préservant l'incertitude calibrée du professeur plutôt que ses prédictions surconfiantes. L'approche guide l'étudiant à apprendre des distributions équilibrées entre certitude et incertitude structurée, améliorant précision, calibration et robustesse en distribution shift.

SIG

HYP

arXiv cs.CL·19 mai

From graphemic dependence to lexical structure: a Markovian perspective on Dante's Commedia

Étude de la Divina Commedia de Dante via encodage voyelle-consonne modélisé comme chaîne de Markov à 4 états. L'indice de mémoire graphémique augmente graduellement d'Inferno à Paradiso. L'analyse trigramme révèle des configurations récurrentes liées aux environnements lexicaux et phénomènes orthographiques.

Papers

SIG

HYP

arXiv cs.CL·19 mai

Beyond the Final Actor: Modeling the Dual Roles of Creator and Editor for Fine-Grained LLM-Generated Text Detection

Nouvelle méthode RACE pour détecter le texte généré par LLM selon 4 catégories (texte humain pur, LLM pur, texte humain poli par LLM, texte LLM humanisé). Utilise la théorie des structures rhétoriques (RST) et analyse au niveau des unités de discours élémentaires. Surpasse 12 baselines avec faibles faux positifs.

Sécurité IA Évaluations Régulation

SIG

HYP

arXiv cs.AI·19 mai

Reverse-Engineering Model Editing on Language Models

Des chercheurs révèlent une vulnérabilité critique des méthodes de model editing : les mises à jour de paramètres permettent de récupérer les données éditées via une attaque KSTER exploitant la structure low-rank. Une défense par « subspace camouflage » est proposée pour obfusquer les empreintes sans compromettre l'utilité.

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.AI·19 mai

Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs

Nouvelle métrique d'évaluation décomposant l'efficacité en tokens des LLMs raisonnants. Introduit un protocole trace-optional séparant taux de complétude, exactitude conditionnelle et longueur générée. Évalue 14 modèles open-weight sur CogniLoad, GSM8K, ProofWriter, ZebraLogic. Identifie trois modes de défaillance distincts : limites logiques, contextuelles et verbosité.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning

R&B-EnCoRe permet aux modèles Vision-Language-Action d'auto-générer et raffiner le raisonnement incarné sans annotations humaines ni récompenses externes. Testé sur manipulation (Franka Panda, WidowX), navigation (bipède, roues, vélo, quadrupède) et conduite autonome : +28% succès manipulation, +101% scores navigation, -21% collisions vs baselines.

Vision Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

The Laplacian Keyboard: Beyond the Linear Span

La Laplacian Keyboard (LK) est un framework hiérarchique qui dépasse les limitations des vecteurs propres laplaciens en RL. LK construit une bibliothèque de comportements task-agnostic et utilise une meta-policy pour les combiner dynamiquement, permettant d'apprendre des politiques au-delà de l'espace linéaire initial tout en améliorant l'efficacité d'échantillonnage.

Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining

QuantaAlpha est un framework évolutionnaire pour l'alpha mining utilisant des LLM. Il traite chaque run comme une trajectoire et améliore les facteurs via mutation et crossover au niveau trajectoire. Sur CSI 300 avec GPT-5.2 : IC=0.0472, ARR=4.68%, MDD=11.8%. Les facteurs transfèrent à CSI 500 (+40.28% retour excédentaire) et S&P 500 (+19.1%).

Agents IA Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·19 mai

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Une étude arXiv montre qu'un seuil de capacité décisionnelle détermine l'effondrement en apprentissage par renforcement auto-joué. Éliminer toutes les décisions contingentes à portée positive provoque une convergence rapide vers un attracteur d'exploitation déterministe. Préserver même une seule décision contingente prévient cet effondrement, confirmant que le mécanisme est la co-adaptation sous contrainte.

Reinforcement learning Papers Multi-agents

SIG

HYP

arXiv cs.AI·19 mai

Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps

Diamond Maps sont des modèles de flux stochastiques permettant l'alignement efficace aux récompenses au moment de l'inférence. Ils amortissent plusieurs étapes de simulation en un seul échantillonneur tout en préservant la stochasticité nécessaire. Appris par distillation depuis GLASS Flows, ils surpassent les méthodes existantes en performance et scalabilité.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·19 mai

AuthorMix: Modular Authorship Style Transfer via Layer-wise Adapter Mixing

AuthorMix propose un framework modulaire de transfert de style d'auteur via des adaptateurs LoRA spécifiques et un mélange layer-wise. Entraîné sur peu d'exemples, il surpasse les baselines SoTA et GPT-5.1 en préservant mieux le sens du texte original.

Fine-tuning Prompt engineering Papers

SIG

HYP

arXiv cs.CL·19 mai

MUSCAT: MUltilingual, SCientific ConversATion Benchmark

MUSCAT est un benchmark multilingue pour évaluer les systèmes de reconnaissance vocale (ASR) sur des conversations scientifiques bilingues avec code-switching. Le dataset contient des discussions entre plusieurs locuteurs parlant différentes langues et propose un cadre d'évaluation au-delà du WER. Les résultats montrent que les systèmes ASR actuels peinent sur ces défis.

Benchmarks Voix

SIG

HYP

arXiv cs.AI·19 mai

LaDi-RL: Latent Diffusion Reasoning Prevents Entropy Collapse in Reinforcement Learning

LaDi-RL optimise le raisonnement des LLM via RL en espace latent avec diffusion. Au lieu d'optimiser des séquences de tokens, la méthode génère des trajectoires de raisonnement latentes par débruitage itératif. Elle résout le problème d'attribution de crédit (récompenses observées après décodage) par rollouts hiérarchiques latent-texte. Gains : +9.4% code generation, +5.7% math reasoning en pass@1.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

On the Adversarial Robustness of Large Vision-Language Models under Visual Token Compression

Étude de la robustesse adversariale des modèles vision-langage compressés. Les auteurs proposent CAGE, une attaque qui exploite le décalage entre l'optimisation des perturbations (sur tokens complets) et l'inférence (via compression). CAGE combine disruption de features et alignement de distortion de rang pour révéler les vulnérabilités cachées des LVLMs compressés.

Vision Sécurité IA Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Med-V1 est une famille de modèles de langage de 3 milliards de paramètres entraînés sur des données synthétiques pour l'attribution d'évidences biomédicales et la vérification de faits. Elle surpasse ses modèles de base de +27% à +71% sur cinq benchmarks et rivalise avec GPT-5 tout en étant bien plus efficace. L'étude quantifie les hallucinations dans les réponses générées par LLM selon les instructions de citation.

Benchmarks Fine-tuning Évaluations

SIG

HYP

arXiv cs.CL·19 mai

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

StructLens analyse l'organisation interne des représentations dans les modèles de langage via des arbres couvrants maximaux construits sur les flux résiduels. Le framework révèle que les couches intermédiaires organisent fortement les tokens proches, et que les unités locales émergent avant les unités plus larges durant le pré-entraînement.

Papers Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

ToolMATH: A Diagnostic Benchmark for Long-Horizon Tool Use under Systematic Tool-Catalog Constraints

ToolMATH est un benchmark de diagnostic pour évaluer l'utilisation d'outils sur long horizon par les modèles de langage. Il convertit des solutions mathématiques en outils Python réutilisables avec descriptions naturelles et schémas typés, puis mesure l'adaptabilité (succès avec outils de remplacement), la robustesse (stabilité face aux distracteurs) et la connectivité des outils (précision sur chaînes longues).

Benchmarks Agents IA Outils

SIG

HYP

arXiv cs.AI·19 mai

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

SynCABEL utilise des LLM pour générer des exemples d'entraînement synthétiques contextualisés afin de pallier la rareté des données annotées en liaison d'entités biomédicales. Le framework atteint l'état de l'art sur MedMentions (anglais), QUAERO (français) et SPACCC (espagnol), avec 60% moins de données annotées que la supervision humaine complète. Un protocole LLM-as-a-judge évalue la validité clinique.

Papers Benchmarks RAG

SIG

HYP

arXiv cs.AI·19 mai

Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning

Méthode AES (Adaptive Entropy Scheduling) pour ajuster dynamiquement le coefficient d'entropie en RL non-stationnaire face à la dérive environnementale. Propose une règle d'échelle en racine carrée basée sur un proxy de non-stationnarité observable. Évaluation sur 4 variantes d'algorithmes, 12 tâches, 4 modes de dérive : réduit la dégradation de performance et accélère la récupération après changements abruptes.

Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Support-Safe Variational Hybrid Filtering for Contact-Mode and Sparse-Law Recovery

VHYDRO est un filtre variationnel hybride pour la dynamique robotique en contact. Il prévient la perte de branches en mélangeant la proposition apprise avec une loi de transition réalisable avant l'échantillonnage. Le modèle infère conjointement un état latent continu et un mode de contact discret, récupérant des lois port-hamiltoniennes éparses par régime.

Robotique Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench est un benchmark télémétrie-driven évaluant les LLM sur 1 800 tâches réalistes de complétion de code en 6 langages. 9 modèles SOTA testés, meilleur score 43.5% Pass@1. Combine correction fonctionnelle, métriques de similarité et jugements LLM sur utilité et pertinence contextuelle.

Génération de code Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

ADMEDTAGGER: an annotation framework for distillation of expert knowledge for the Polish medical language

Framework d'annotation utilisant Llama3.1 comme modèle professeur pour étiqueter des textes médicaux polonais. Corpus de 5 catégories cliniques (Radiologie, Oncologie, Cardiologie, Hypertension, Pathologie). DistilBERT atteint F1 > 0.80 par catégorie, 500× plus petit qu'un LLM, 300× moins de VRAM, inférence plusieurs centaines de fois plus rapide.

Llama Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Enhancing Cloud Network Resilience via a Robust LLM-Empowered Multi-Agent Reinforcement Learning Framework

CyberOps-Bots combine un agent LLM avec des agents RL multi-niveaux pour défendre les réseaux cloud contre les attaques. Le framework hiérarchique utilise la planification ReAct et la mémoire long-court terme. Sur données cloud réelles, il maintient 68,5% plus de disponibilité et gagne 34,7% en performance sans réentraînement lors de changements de scénarios.

Multi-agents Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

KASER: Knowledge-Aligned Student Error Simulator for Open-Ended Coding Tasks

KASER est une méthode d'apprentissage par renforcement pour simuler les erreurs d'étudiants en programmation. Elle utilise une récompense hybride combinant similarité de code, correspondance d'erreurs et diversité des solutions pour éviter l'effondrement modal et capturer la variété des réponses étudiantes.

Reinforcement learning Génération de code Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Rethinking GNNs and Missing Features: Challenges, Evaluation and a Robust Solution

Article arXiv sur la gestion des features manquantes dans les Graph Neural Networks (GNNs). Les auteurs démontrent que les benchmarks existants avec features sparse ne permettent pas une comparaison significative. Ils proposent GNNmim, une baseline robuste testée sur des datasets denses avec mécanismes de missingness réalistes au-delà du MCAR.

Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents

Calibrate-Then-Act (CTA) est un framework qui aide les agents LLM à raisonner explicitement sur les compromis coût-incertitude lors de l'exploration. En fournissant une estimation préalable de l'état de l'environnement, CTA améliore la prise de décision sur des tâches de QA, retrieval-augmented et de lecture de fichiers en programmation.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Learning from Historical Activations in Graph Neural Networks

HISTOGRAPH, une couche d'agrégation finale basée sur l'attention, exploite les activations intermédiaires des couches précédentes dans les GNNs. La méthode applique une attention couche-par-couche puis nœud-par-nœud pour modéliser l'évolution des représentations. Résultats améliorés sur benchmarks de classification de graphes, robustesse accrue dans les GNNs profonds.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Mapping Human Anti-collusion Mechanisms to Multi-agent AI Systems

Article arXiv proposant une taxonomie des mécanismes anti-collusion humains (sanctions, dénonciation, audit, design de marché, gouvernance) et leur adaptation aux systèmes multi-agents IA. Identifie défis critiques : attribution d'actions émergentes, fluidité d'identité des agents, distinction coopération/collusion, adaptation adversariale.

Multi-agents Agents IA Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study

CLUES, un framework pour Text-to-SQL clinique, décompose l'incertitude sémantique en scores d'ambiguïté et d'instabilité via le complément de Schur d'une matrice de graphe bipartite. Testé sur AmbigQA/SituatedQA et un benchmark clinique, il surpasse Kernel Language Entropy et permet un triage efficace : 51% des erreurs dans 25% des requêtes.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

ShareChat: A Dataset of Chatbot Conversations in the Wild

ShareChat est un corpus de 142 808 conversations (660 293 tours) collectées sur ChatGPT, Perplexity, Grok, Gemini et Claude entre avril 2023 et octobre 2025. Le dataset préserve les affordances natives (citations, traces de raisonnement, artefacts code) sur 95 langues et permet d'analyser les différences cross-platform en satisfaction utilisateur, stratégies de citation et latence.

Benchmarks Évaluations GPT

SIG

HYP

arXiv cs.AI·19 mai

SignRoundV2: Toward Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

SignRoundV2 est un framework de quantization post-training pour LLMs qui maintient les performances sous compression extrême (2-4 bits). Il combine une stratégie de précision mixte adaptative guidée par les gradients et des techniques de stabilisation légères. Les résultats montrent une perte de ~1% à 4.5 bits en moyenne en configuration MXFP mixte, avec amélioration significative en quantization 2-bit.

Fine-tuning Benchmarks Infrastructure

SIG

HYP

arXiv cs.CL·19 mai

Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs

Papier arXiv proposant un protocole d'évaluation décomposant l'efficacité en tokens des LLMs raisonnants. Analyse 14 modèles open-weight sur CogniLoad, GSM8K, ProofWriter, ZebraLogic en séparant taux de complétude, correction conditionnelle et longueur générée. Identifie trois modes de défaillance : limité par la logique, par le contexte ou par la verbosité.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

GraphMind: Theorem Selection and Conclusion Generation Framework with Dynamic GNN for LLM Reasoning

GraphMind intègre GNN et LLM pour le raisonnement multi-étapes en mathématiques. Le framework modélise le processus de preuve comme un graphe hétérogène évolutif où nœuds (conditions, théorèmes, conclusions) et arêtes (dépendances logiques) permettent la sélection contextuelle de théorèmes et la génération itérative de conclusions. Résultats améliorés sur benchmarks QA.

Raisonnement Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

The Journal of Prompt-Engineered (Moral) Philosophy Or: Why AI-Assisted Ethics Research Requires Process Transparency

Article sur la transparence requise dans la recherche éthique assistée par IA. Les auteurs argumentent que l'évaluation des résultats seule est insuffisante ; ils proposent un cadre de documentation basé sur l'intégrité de l'agent, incluant déclaration, navigation, documentation et registres de développement. Le papier lui-même applique ce cadre avec archives persistantes.

Prompt engineering Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Tongyi DeepResearch Technical Report

Tongyi DeepResearch est un modèle LLM agentic de 30.5B paramètres (3.3B activés par token) conçu pour la recherche autonome longue durée. Entraîné via mid-training et post-training agentic avec synthèse de données automatique, il atteint SOTA sur Humanity's Last Exam, BrowseComp, WebWalkerQA et autres benchmarks. Le modèle, framework et solutions sont open-sourcés.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Learning from Self-Debate: Preparing Reasoning Models for Multi-Agent Debate

SDRL (Self-Debate Reinforcement Learning) entraîne les LLM à résoudre des problèmes seuls ET à bénéficier de débats multi-agents. Le modèle génère plusieurs solutions, construit un contexte de débat avec différentes trajectoires de raisonnement, puis optimise conjointement les réponses initiales et conditionnées au débat. Résultats : amélioration cohérente de MAD sur plusieurs benchmarks et configurations.

Raisonnement Reinforcement learning Multi-agents

SIG

HYP

arXiv cs.AI·19 mai

DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling

DecoupleSearch découple planification et recherche dans les systèmes RAG agentic via deux modèles de valeur distincts. Un arbre de raisonnement est construit avec Monte Carlo Tree Search pour évaluer chaque étape. La Hierarchical Beam Search affine itérativement les candidats de planification et recherche lors de l'inférence.

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Étude arXiv évaluant la cohérence du codage de données de communication par ChatGPT selon les groupes démographiques (genre, race). Les auteurs adaptent un cadre d'évaluation automatisée et testent ChatGPT sur trois types de tâches collaboratives. Résultat : le codage ChatGPT montre une cohérence comparable aux évaluateurs humains entre groupes.

GPT Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

ProfBench introduit un benchmark de 7000+ paires réponse-critères évaluées par experts (PhD Physique/Chimie, MBA Finance/Consulting). Les meilleurs modèles (GPT-5-high) atteignent 65,9% de performance. Les auteurs proposent des LLM-Judges robustes réduisant les coûts d'évaluation de 2-3 ordres de magnitude.

Benchmarks Évaluations GPT

SIG

HYP

arXiv cs.CL·19 mai

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

SynCABEL utilise les LLM pour générer des données d'entraînement synthétiques contextualisées afin de résoudre la pénurie d'annotations expertes en liaison d'entités biomédicales. Le framework atteint des résultats SOTA sur MedMentions (anglais), QUAERO (français) et SPACCC (espagnol), avec 60% moins de données annotées que la supervision humaine complète.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

Prior Knowledge Makes It Possible: From Sublinear Graph Algorithms to LLM Test-Time Methods

Article théorique formulant le raisonnement multi-étapes comme problème de connectivité sur graphe de connaissances. Montre une transition de phase : si les connaissances pré-entraînées sont fragmentées, l'augmentation requiert Ω(√n) requêtes ; au-delà d'un seuil de densité formant une composante géante, un nombre constant de requêtes suffit.

RAG Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle

EvolveR est un framework permettant aux agents LLM d'apprendre de leurs propres expériences via une boucle fermée. Il combine l'auto-distillation hors ligne (synthèse de trajectoires en principes stratégiques réutilisables) et l'interaction en ligne (récupération active de principes pour guider les décisions). Testé sur des benchmarks QA multi-hop complexes, il surpasse les baselines existantes.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Extracting latent representations from X-ray spectra. Classification, regression, and accretion signatures of Chandra sources

Autoencoder transformer compresse les spectres X du catalogue Chandra en représentation 8D. Classification de 8 types astrophysiques : ~40% de précision globale, ~69% sur AGN/objets compacts. Les features latentes corrèlent avec propriétés spectrales et temporelles, capturant l'information physique aussi bien que les features manuelles.

Benchmarks Vision

SIG

HYP

arXiv cs.AI·19 mai

NeuroRVQ: Multi-Scale Biosignal Tokenization for Generative Foundation Models

NeuroRVQ est une famille de tokenizers biosignaux adaptée à chaque modalité (EEG, ECG, EMG) utilisant des convolutions multi-échelles et des codebooks RVQ hiérarchiques pour préserver les dynamiques haute fréquence. Les modèles fondamentaux NeuroRVQ-FM entraînés avec masquage de tokens atteignent des performances compétitives ou supérieures aux modèles spécialisés existants.

Papers Benchmarks Embeddings

SIG

HYP

arXiv cs.CL·19 mai

UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages

UbuntuGuard est le premier benchmark de sécurité basé sur des politiques pour les langues africaines. Construit à partir de 155 experts du domaine, il évalue 15 modèles (7 LLM génériques, 8 modèles de garde) sur trois variantes. Les résultats montrent que les benchmarks anglais surestiment la sécurité multilingue réelle et que le transfert cross-lingue reste insuffisant.

Sécurité IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Evaluating Language Models' Evaluations of Games

Étude arXiv comparant les évaluations de jeux par modèles de langage et de raisonnement contre des jugements humains. Dataset de 100+ jeux de plateau et 450+ évaluations humaines. Les modèles de raisonnement s'alignent mieux aux humains, mais montrent une relation non-monotone : plus ils approchent l'optimalité théorique des jeux, moins ils correspondent aux données humaines.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Adversarial Agent Collaboration for Correctness Improvements of C to Safe Rust Translation

ACToR, une boucle multi-agent adversariale, améliore la traduction C vers Rust en utilisant un agent traducteur et un agent discriminateur qui s'affrontent itérativement. Sur 63 utilitaires C réels (473 lignes en moyenne), le système atteint 90% de taux de passage des tests sans intervention humaine, avec une amélioration de 36,7% par rapport aux baselines non-adversariales.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·19 mai

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

RLBFF combine le feedback humain et les récompenses vérifiables pour l'entraînement de modèles de récompense. La méthode extrait des principes binaires du feedback naturel (ex: exactitude, lisibilité du code) et les utilise comme tâches d'entailment. Les modèles atteindent 86,2% sur RM-Bench et 81,4% sur JudgeBench (#1 septembre 2025). Qwen3-32B aligné avec RLBFF égale o3-mini et DeepSeek R1 à 5% du coût d'inférence.

Reinforcement learning Évaluations Alignement

SIG

HYP

arXiv cs.AI·19 mai

FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation

FUNCanon décompose les tâches de manipulation longue en séquences d'actions (acteur-verbe-objet) et canonicalise les objets par leurs affordances fonctionnelles via VLM. FuncDiffuser, une politique diffusion objet-centrique et action-centrique, apprend sur ces données alignées pour généraliser entre catégories d'objets et réutiliser les comportements cross-task.

Robotique Vision Agents IA

SIG

HYP

arXiv cs.AI·19 mai

CoUn: Empowering Machine Unlearning via Contrastive Learning

CoUn est une méthode d'apprentissage non supervisé (machine unlearning) qui utilise l'apprentissage contrastif pour supprimer l'influence de données spécifiques d'un modèle entraîné. La technique ajuste les représentations apprises en utilisant uniquement les données à conserver, surpassant les méthodes existantes basées sur la manipulation d'étiquettes ou la perturbation des poids.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Individual utilities of life satisfaction reveal inequality aversion unrelated to political alignment

Étude expérimentale sur 300 participants britanniques mesurant les préférences individuelles en matière de bien-être et d'équité. Les fonctions d'utilité estimées via Expected Utility Maximisation montrent une aversion à l'inégalité sociétale indépendante de l'alignement politique. Les résultats remettent en question l'utilisation de la satisfaction de vie moyenne comme métrique politique.

Alignement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

FediLoRA: Practical Federated Fine-Tuning of Foundation Models Under Missing-Modality Constraints

FediLoRA propose un framework de fine-tuning fédéré avec LoRA pour les modèles de vision-langage (VLLMs). Il résout deux défis : les rangs LoRA imbalancés dus aux ressources hétérogènes et les modalités manquantes (erreurs utilisateur, pannes matérielles). L'approche combine moyennes simples et édition structurée, validée sur benchmarks généraux et médicaux.

Fine-tuning Vision Papers

SIG

HYP

arXiv cs.CL·19 mai

Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage

Des agents LLM collusifs manipulent les croyances de victimes en coordonnant des fragments de preuves véridiques via des canaux publics, sans communication cachée. Le framework Generative Montage (Writer-Editor-Director) construit des narratifs trompeurs par débat adversarial. Sur 14 familles LLM, taux de succès 74,4% (propriétaires) et 70,6% (open-weights). Les modèles de raisonnement avancé sont plus vulnérables.

Agents IA Multi-agents Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Étude théorique de la perte de plasticité (LoP) en apprentissage profond dans des environnements non-stationnaires. Les auteurs identifient deux mécanismes principaux : saturation d'activation et redondance représentationnelle, qui créent des pièges dans l'espace des paramètres. Paradoxe : les propriétés favorisant la généralisation statique (représentations bas-rang) aggravent la LoP en apprentissage continu.

Reinforcement learning Papers Alignement

SIG

HYP

arXiv cs.AI·19 mai

Ordinal Adaptive Correction: A Data-Centric Approach to Ordinal Image Classification with Noisy Labels

ORDAC, une méthode data-centric, corrige les labels bruyants en classification ordinale d'images via Label Distribution Learning. Testée sur Adience (estimation d'âge) et Diabetic Retinopathy (sévérité maladie), ORDAC_R réduit l'erreur absolue moyenne de 0,86 à 0,62 avec 40% de bruit.

Vision Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

FedKLPR: KL-Guided Pruning-Aware Federated Learning for Person Re-Identification

FedKLPR est un framework de federated learning pour la réidentification de personnes. Il combine trois techniques : régularisation par divergence KL pour gérer l'hétérogénéité statistique, pruning non-structuré pour réduire la communication (40-42% de réduction sur ResNet-50), et récupération inter-rounds adaptative. Testé sur 8 benchmarks.

Papers Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

SignRoundV2: Toward Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

SignRoundV2 est un framework de quantization post-training pour LLMs qui maintient les performances même en compression extrême (2-4 bits). Il combine une stratégie de précision mixte adaptative basée sur les gradients et des techniques de stabilisation légères. Les résultats montrent une perte de ~1% à 4.5 bits en moyenne en configuration MXFP mixte.

Fine-tuning Benchmarks Open source

SIG

HYP

arXiv cs.CL·19 mai

Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory

Evo-Memory est un benchmark pour évaluer la mémoire auto-évolutive dans les agents LLM. Il structure les données en flux de tâches séquentiels, testant la capacité des modèles à chercher, adapter et mettre à jour la mémoire après chaque interaction. Les auteurs implémentent 10+ modules mémoire et proposent ExpRAG et ReMem pour améliorer la réutilisation d'expérience.

Agents IA Benchmarks RAG

SIG

HYP

arXiv cs.AI·19 mai

OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval

OPERA est une architecture de récupération augmentée par génération (RAG) qui couple planification et exécution via apprentissage par renforcement. Un module de planification d'objectifs décompose les questions complexes en sous-objectifs, exécutés par un module Reason-Execute avec composants spécialisés. L'entraînement utilise MAPGRPO, une variante de GRPO. Résultats supérieurs sur benchmarks multi-hop complexes.

RAG Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs

Nouvelle approche pour générer des défis de preuve formelle en exploitant l'informatique théorique (TCS). Le framework synthétise automatiquement des paires problème-preuve en Lean4 et Markdown sur deux domaines : Busy Beaver et Mixed Boolean Arithmetic. DeepSeekProver-V2-671B atteint 57,5% sur Busy Beaver mais seulement 12% sur Mixed Boolean Arithmetic, révélant des lacunes majeures en génération de preuves longues.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

LSDTs: LLM-Augmented Semantic Digital Twins for Adaptive Knowledge-Intensive Infrastructure Planning

LSDTs combine LLMs with Digital Twins to extract planning knowledge from unstructured documents (regulations, technical guidelines) and organize it into formal ontologies. A case study on offshore wind farm planning in Maryland demonstrates regulation-aware layout optimization and high-fidelity simulation capabilities.

RAG Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Fourier Compressor: Frequency-Domain Visual Token Compression for Vision-Language Models

Fourier Compressor compresse les tokens visuels des Vision-Language Models via transformée de Fourier. La méthode sans paramètres réduit les FLOPs de 83,8% et accélère l'inférence de 31,2% tout en conservant 96% de la précision originale. Testée sur LLaVA et Qwen-VL, elle généralise aussi aux vidéos.

Vision Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap

Nouvelle stratégie de sélection de données pour l'alignement LLM basée sur l'écart de récompense implicite DPO. La méthode sélectionne les exemples les plus difficiles (petit écart de récompense) et atteint des performances supérieures avec seulement 10% des données originales sur plusieurs benchmarks.

Reinforcement learning Alignement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Perovskite-R1: a domain-specialized large language model for intelligent discovery of precursor additives and experimental design

Perovskite-R1 est un LLM spécialisé basé sur QwQ-32B, fine-tuné sur 1 232 publications scientifiques et 33 269 matériaux candidats pour découvrir des additifs précurseurs optimisant les cellules solaires pérovskites. Le modèle génère des solutions pour la passivation des défauts et améliore stabilité/performance, validées expérimentalement.

Qwen Fine-tuning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Missing-Modality-Aware Graph Neural Network for Cancer Classification

MAGNET, un réseau de neurones graphiques, traite les données biologiques multimodales incomplètes pour la classification du cancer. Le modèle utilise un mécanisme d'attention multi-têtes dynamique pour fusionner les embeddings de modalités manquantes, avec une complexité linéaire. Testé sur trois datasets multiomiques publics, MAGNET surpasse les méthodes de fusion existantes.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.AI·19 mai

Mixture-of-Experts Can Surpass Dense LLMs Under Strictly Equal Resource

Une étude arXiv démontre que les modèles Mixture-of-Experts (MoE) surpassent les architectures denses sous contraintes de ressources strictement égales (paramètres totaux, compute d'entraînement, données identiques). Les chercheurs identifient une région d'activation optimale cohérente entre tailles de modèles. Validation sur ~200 modèles 2B et 50 modèles 7B (50 trillions de tokens).

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

EvoSynth, un framework multi-agent autonome, optimise les attaques jailbreak en espace de code exécutable plutôt qu'en espace de prompts. Le système évolue et corrige itérativement des algorithmes d'attaque basés sur le code. Résultats : 85,5% de taux de succès contre Claude-Sonnet-4.5, 95,9% en moyenne sur tous les modèles testés.

Agents IA Multi-agents Claude

SIG

HYP

arXiv cs.AI·19 mai

Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving

FastDrive, un VLM compact de 0.9B paramètres, surpasse les modèles de 7B+ (LLaVA-1.5) sur tâches de conduite autonome. Entraîné sur NuScenes-S, un benchmark avec représentations structurées, il atteint +20% de précision en décision avec 10x speedup en inférence.

Vision Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction

HTSC-2025 est un benchmark open-source de matériaux supraconducteurs à haute température découverts entre 2023-2025 (systèmes X₂YH₆, pérovskites MXH₃, M₃XH₈, structures en cage BCN-dopées, honeycomb 2D). Comble le manque de datasets standardisés pour évaluer équitablement les algorithmes IA de prédiction de température critique.

Benchmarks Papers Open source

SIG

HYP

arXiv cs.CL·19 mai

T-FIX: Text-Based Explanations with Features Interpretable to eXperts

T-FIX est un cadre d'évaluation pour mesurer l'alignement des explications générées par les LLM avec le raisonnement d'experts dans des domaines spécialisés (chirurgie, astronomie, thérapie). Couvre sept tâches scientifiques sur trois domaines avec critères définis par des experts. Permet une évaluation automatique et généralisable sans annotation continue d'experts.

Évaluations Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

RAP: Runtime Adaptive Pruning for LLM Inference

RAP est un framework de pruning élastique pour l'inférence LLM qui utilise le reinforcement learning pour adapter dynamiquement les stratégies de compression selon les variations mémoire runtime et les demandes hétérogènes de KV-cache. L'agent RL optimise le ratio paramètres/KV-cache en temps réel, conservant uniquement les composants maximisant l'utilité dans le budget mémoire courant.

Reinforcement learning Infrastructure Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

DriveMoE propose une architecture Mixture-of-Experts pour la conduite autonome de bout en bout. Le modèle combine une Vision MoE (sélection dynamique de caméras selon le contexte) et une Action MoE (activation d'experts spécialisés pour différents comportements). Construit sur la baseline Drive-π₀, DriveMoE atteint l'état de l'art sur Bench2Drive en évitant l'averaging des modes.

Vision Agents IA Papers

SIG

HYP

arXiv cs.AI·19 mai

InvDesFlow-AL: active learning-based workflow for inverse design of functional materials

InvDesFlow-AL combine diffusion et apprentissage actif pour l'inverse design de matériaux. Le modèle atteint RMSE 0.0423 Å en prédiction de structures cristallines (+32.96% vs méthodes existantes) et génère systématiquement des matériaux à basse énergie de formation. Validation : découverte de Li₂AuH₆ comme supraconducteur BCS à 140 K.

Papers Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.CL·19 mai

Beyond Neural Incompatibility: Cross-Scale Knowledge Transfer in Language Models through Latent Semantic Alignment

SemAlign propose un mécanisme de transfert de connaissance entre modèles de langage de tailles différentes via alignement sémantique latent. Au lieu de copier directement les paramètres, la méthode utilise les activations comme médium de transfert, en appairant couches source et cible et en optimisant via supervision sémantique. Évaluée sur quatre benchmarks.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

Sustainability via LLM Right-sizing

Étude comparative de 11 LLMs (GPT-4o, Gemma-3, Phi-4, etc.) sur 10 tâches professionnelles courantes. GPT-4o surpasse mais coûte plus cher ; les petits modèles (Gemma-3, Phi-4) offrent un bon rapport qualité/coût/empreinte environnementale. Propose une évaluation centrée sur la suffisance contextuelle plutôt que la performance maximale.

Benchmarks Évaluations Open source

SIG

HYP

arXiv cs.AI·19 mai

Patients Speak, AI Listens: LLM-based Analysis of Online Reviews Uncovers Key Drivers for Urgent Care Satisfaction

Étude arXiv analysant 10 000+ avis Google Maps d'urgences (DMV, Floride) via prompt engineering GPT pour extraire sentiments aspect-based. Résultats : facteurs interpersonnels et efficacité opérationnelle sont les principaux déterminants de satisfaction patient ; qualité technique, finances, équipements n'ont pas d'effet indépendant significatif. Densité de population seule corrèle modestement avec les notes.

GPT Prompt engineering RAG

SIG

HYP

arXiv cs.CL·19 mai

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

ProfBench est un benchmark de 7000+ paires réponse-critère évaluées par experts humains en physique, chimie, finance et conseil. Les auteurs proposent des LLM-judges robustes réduisant le coût d'évaluation de 2-3 ordres de magnitude. GPT-5-high atteint 65,9% de performance, révélant des écarts significatifs entre modèles propriétaires et open-weight.

Benchmarks Évaluations GPT

SIG

HYP

arXiv cs.AI·19 mai

Long Context Modeling with Ranked Memory-Augmented Retrieval

ERMAR (Enhanced Ranked Memory Augmented Retrieval) est un framework pour gérer efficacement les contextes longs dans les modèles de langage. Il utilise un mécanisme de scoring de pertinence et un modèle de re-ranking pointwise pour les embeddings clé-valeur, inspiré par les techniques learning-to-rank. Résultats SOTA sur benchmarks standards avec meilleure scalabilité.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

LLM-Safety Evaluations Lack Robustness

Étude arXiv montrant que les évaluations de sécurité des LLM souffrent de bruit systématique : petits datasets, incohérences méthodologiques, configurations d'évaluation peu fiables. Analyse du pipeline complet (curation, red-teaming automatisé, génération, jugement par LLM) et propose des lignes directrices pour réduire le biais.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Adaptive Camera Sensor for Vision Models

Lens, une méthode de contrôle de capteur caméra, adapte les paramètres d'acquisition en temps réel pour améliorer la performance des modèles de vision. Utilisant VisiT, un indicateur de qualité sans entraînement basé sur les scores de confiance, Lens compense les décalages de domaine sans modification extensive du modèle. Benchmark ImageNet-ES Diverse introduit.

Vision Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Toward Robust Multilingual Adaptation of LLMs for Low-Resource Languages

LiRA, un framework de fine-tuning léger, améliore l'adaptation des LLM aux langues peu dotées en ressources via l'alignement sémantique cross-lingue. Combine Arca (alignement basé ancres vers l'anglais) et LaSR (tête language-aware). Garanties théoriques de stabilité. Dataset multilingue (7 langues asiatiques) et code publics.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Merlin's Whisper: Enabling Efficient Reasoning in Large Language Models via Black-box Persuasive Prompting

Whisper, un framework de prompting itératif, réduit la longueur des réponses des modèles de raisonnement (LRMs) via persuasion en boîte noire. Sur GSM8K, réduction 3x pour Qwen3 ; ~40% de tokens économisés en moyenne. Claude-3.7 et Gemini-2.5 voient -46% à -50% sur MATH-500.

Prompt engineering Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Uncertainty Quantification as a Principled Foundation for Explainable Artificial Intelligence: A Case Study of Counterfactual Explanations

Article arXiv proposant une approche d'explicabilité par contrefactuels fondée sur la quantification d'incertitude. Les auteurs démontrent que l'intégration de concepts fondamentaux de l'IA (notamment l'incertitude) améliore la robustesse et la fiabilité des explications, avec performances compétitives malgré une conception simple.

SIG

HYP

arXiv cs.AI·19 mai

Supervising the search process produces reliable and generalizable information-seeking agents

RAG-Gym, un framework de supervision du processus de recherche plutôt que du résultat final, améliore les agents de recherche autonomes. Re²Search++, un agent supervisé au niveau du processus, atteint des gains substantiels sur les benchmarks multi-hop, particulièrement hors-domaine, grâce à des requêtes de meilleure qualité et une meilleure généralisation.

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Experimentally validated quantum-secure federated learning over a multi-user quantum network

QuNetQFL est un protocole de federated learning quantique implémenté sur des réseaux quantiques, masquant les mises à jour locales avec des clés secrètes quantiques distribuées pour une sécurité information-théorique. Validé expérimentalement sur un réseau à quatre clients, il réduit les coûts de communication de 75% et scale jusqu'à 200 clients avec convergence rapide.

Sécurité IA Papers

SIG

HYP

arXiv cs.AI·19 mai

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

LightTransfer transforme les modèles de langage (LLaMA, Mistral, QwQ-STILL) en architectures hybrides sans entraînement. La méthode identifie les couches « paresseuses » et remplace leur attention complète par une attention en streaming, réduisant les coûts de cache KV. Résultats : jusqu'à 2,17× d'amélioration de débit avec <1,5% de perte sur LongBench et 53,3% sur AIME24.

Llama Mistral Qwen

SIG

HYP

arXiv cs.AI·19 mai

Leveraging Unsupervised Learning for Cost-Effective Visual Anomaly Detection

Système de détection d'anomalies visuelles utilisant l'apprentissage non supervisé sur Raspberry Pi. Entraînement et inférence en 90 secondes avec 10 images normales, F1 score >0.95. Déploiement via Anomalib et openVINO pour PME.

Vision Open source Outils

SIG

HYP

arXiv cs.CL·19 mai

Residual Semantic Decomposition of Word Embeddings

Residual Semantic Decomposition (RSD) décompose récursivement les embeddings de mots en axes sémantiques locaux via une approche additive neuronale. Sur des mots ambigus, RSD sépare les contextes fournis des contrôles aléatoires, mais les diagnostiques d'entropie révèlent que GloVe statique ne place pas uniformément les mots ambigus aux frontières haute-entropie.

Embeddings Papers

SIG

HYP

arXiv cs.CL·19 mai

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

FinAuditing est un benchmark d'audit financier construit sur 1 102 instances XBRL réelles (33k tokens en moyenne). Il évalue 13 LLMs sur trois tâches : appariement sémantique, extraction de relations et raisonnement mathématique. Les résultats révèlent des lacunes significatives en récupération de concepts et raisonnement cross-document.

Benchmarks Raisonnement Évaluations

SIG

HYP