Archives

mai 2026

3148 articles

arXiv cs.CL·

Language models fail at extended rule following

Les modèles de langage échouent à appliquer des règles simples de manière fiable sur des séquences longues. Test sur 126 variantes : tous les modèles ne peuvent pas compter au-delà d'un seuil dépendant du modèle. Les défaillances sont abruptes et persistent malgré l'augmentation de la taille et du calcul. L'analyse mécanique révèle que les modèles utilisent un nombre fini d'états internes pour simuler le comptage.

RaisonnementBenchmarksAgents IA
SIG
78
HYP
25
arXiv cs.AI·

Geometry-Aware Attention Guidance for Diffusion Models via Modern Hopfield Dynamics

GAG (Geometry-Aware Attention Guidance) améliore les modèles de diffusion sans entraînement supplémentaire en guidant l'attention via la dynamique de Hopfield moderne. Analyse théorique prouve que la discordance sparse-dense agit comme signal d'accélération directionnel. Méthode universelle testée sur FLUX.1, FLUX.2, Qwen-Image avec gains de qualité et surcoût minimal.

Génération d'imagesPapersRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Human-Certified Module Repositories for the AI Age

Les Human-Certified Module Repositories (HCMR) proposent une architecture pour construire des logiciels fiables dans le développement assisté par IA. Face aux risques de composants non vérifiés dans les écosystèmes modulaires, ce framework combine supervision humaine et analyse automatisée pour certifier les modules et garantir une assemblée sûre par humains et agents IA.

Agents IAGénération de codeSécurité IA
SIG
72
HYP
25
arXiv cs.AI·

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

SPOT (Surgical Post-Training) est un framework de distillation on-policy qui injecte des capacités de raisonnement dans les LLM tout en préservant les connaissances antérieures. Avec 4k paires mathématiques rectifiées, il améliore Qwen3-8B de 6,2% en moyenne en 16 minutes sur 8x H800 GPUs. L'approche utilise une formulation de récompense contrainte par KL pour atténuer l'oubli catastrophique.

Fine-tuningReinforcement learningRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Flowette: Flow Matching with Graphette Priors for Graph Generation

Flowette est un framework de flow matching continu pour la génération de graphes avec motifs récurrents. Le modèle utilise un transformer basé sur GNN pour apprendre un champ de vélocité, intègre des couplages par transport optimal et introduit les graphettes, une famille probabiliste de modèles de structure graphique généralisant les graphons. Résultats SOTA sur plusieurs benchmarks.

PapersBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

SkillJect: Effectively Automating Skill-Based Prompt Injection for Skill-Enabled Agents

SkillJect automatise les attaques par injection de prompts contre les agents LLM utilisant des skills modulaires. Le framework cache des payloads malveillants dans des scripts auxiliaires et réécrit les instructions SKILL.md via une stratégie de préambule. Une boucle multi-agent (Attack/Victim/Evaluate) optimise l'efficacité de l'attaque sur plusieurs plateformes et modèles.

Agents IASécurité IAPrompt engineering
SIG
75
HYP
25
arXiv cs.AI·

Learning Native Continuation for Action Chunking Flow Policies

Legato est une méthode d'entraînement pour les politiques VLA basées sur des flux d'actions chunked. Elle initialise le débruitage à partir d'un mélange d'actions connues et de bruit, et reshape la dynamique du flux pour assurer la cohérence entre entraînement et inférence. Tests réels : 10% d'amélioration en fluidité de trajectoire et temps de tâche vs RTC.

VisionGénération de codeRaisonnement
SIG
72
HYP
18
arXiv cs.CL·

Beyond the Final Actor: Modeling the Dual Roles of Creator and Editor for Fine-Grained LLM-Generated Text Detection

Nouvelle méthode RACE pour détecter le texte généré par LLM selon 4 catégories (texte humain pur, LLM pur, texte humain poli par LLM, texte LLM humanisé). Utilise la théorie des structures rhétoriques (RST) et analyse au niveau des unités de discours élémentaires. Surpasse 12 baselines avec faibles faux positifs.

Sécurité IAÉvaluationsRégulation
SIG
72
HYP
25
arXiv cs.AI·

Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs

Nouvelle métrique d'évaluation décomposant l'efficacité en tokens des LLMs raisonnants. Introduit un protocole trace-optional séparant taux de complétude, exactitude conditionnelle et longueur générée. Évalue 14 modèles open-weight sur CogniLoad, GSM8K, ProofWriter, ZebraLogic. Identifie trois modes de défaillance distincts : limites logiques, contextuelles et verbosité.

RaisonnementÉvaluationsBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

Une étude arXiv montre qu'un seuil de capacité décisionnelle détermine l'effondrement en apprentissage par renforcement auto-joué. Éliminer toutes les décisions contingentes à portée positive provoque une convergence rapide vers un attracteur d'exploitation déterministe. Préserver même une seule décision contingente prévient cet effondrement, confirmant que le mécanisme est la co-adaptation sous contrainte.

Reinforcement learningPapersMulti-agents
SIG
72
HYP
15
arXiv cs.AI·

Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps

Diamond Maps sont des modèles de flux stochastiques permettant l'alignement efficace aux récompenses au moment de l'inférence. Ils amortissent plusieurs étapes de simulation en un seul échantillonneur tout en préservant la stochasticité nécessaire. Appris par distillation depuis GLASS Flows, ils surpassent les méthodes existantes en performance et scalabilité.

RaisonnementReinforcement learningPapers
SIG
72
HYP
25
arXiv cs.AI·

LaDi-RL: Latent Diffusion Reasoning Prevents Entropy Collapse in Reinforcement Learning

LaDi-RL optimise le raisonnement des LLM via RL en espace latent avec diffusion. Au lieu d'optimiser des séquences de tokens, la méthode génère des trajectoires de raisonnement latentes par débruitage itératif. Elle résout le problème d'attribution de crédit (récompenses observées après décodage) par rollouts hiérarchiques latent-texte. Gains : +9.4% code generation, +5.7% math reasoning en pass@1.

Reinforcement learningRaisonnementGénération de code
SIG
78
HYP
25
arXiv cs.AI·

On the Adversarial Robustness of Large Vision-Language Models under Visual Token Compression

Étude de la robustesse adversariale des modèles vision-langage compressés. Les auteurs proposent CAGE, une attaque qui exploite le décalage entre l'optimisation des perturbations (sur tokens complets) et l'inférence (via compression). CAGE combine disruption de features et alignement de distortion de rang pour révéler les vulnérabilités cachées des LVLMs compressés.

VisionSécurité IABenchmarks
SIG
72
HYP
15
arXiv cs.CL·

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Med-V1 est une famille de modèles de langage de 3 milliards de paramètres entraînés sur des données synthétiques pour l'attribution d'évidences biomédicales et la vérification de faits. Elle surpasse ses modèles de base de +27% à +71% sur cinq benchmarks et rivalise avec GPT-5 tout en étant bien plus efficace. L'étude quantifie les hallucinations dans les réponses générées par LLM selon les instructions de citation.

BenchmarksFine-tuningÉvaluations
SIG
82
HYP
18
arXiv cs.CL·

ToolMATH: A Diagnostic Benchmark for Long-Horizon Tool Use under Systematic Tool-Catalog Constraints

ToolMATH est un benchmark de diagnostic pour évaluer l'utilisation d'outils sur long horizon par les modèles de langage. Il convertit des solutions mathématiques en outils Python réutilisables avec descriptions naturelles et schémas typés, puis mesure l'adaptabilité (succès avec outils de remplacement), la robustesse (stabilité face aux distracteurs) et la connectivité des outils (précision sur chaînes longues).

BenchmarksAgents IAOutils
SIG
72
HYP
18
arXiv cs.AI·

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

SynCABEL utilise des LLM pour générer des exemples d'entraînement synthétiques contextualisés afin de pallier la rareté des données annotées en liaison d'entités biomédicales. Le framework atteint l'état de l'art sur MedMentions (anglais), QUAERO (français) et SPACCC (espagnol), avec 60% moins de données annotées que la supervision humaine complète. Un protocole LLM-as-a-judge évalue la validité clinique.

PapersBenchmarksRAG
SIG
78
HYP
15
arXiv cs.AI·

Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning

Méthode AES (Adaptive Entropy Scheduling) pour ajuster dynamiquement le coefficient d'entropie en RL non-stationnaire face à la dérive environnementale. Propose une règle d'échelle en racine carrée basée sur un proxy de non-stationnarité observable. Évaluation sur 4 variantes d'algorithmes, 12 tâches, 4 modes de dérive : réduit la dégradation de performance et accélère la récupération après changements abruptes.

Reinforcement learningRaisonnement
SIG
72
HYP
18
arXiv cs.AI·

Support-Safe Variational Hybrid Filtering for Contact-Mode and Sparse-Law Recovery

VHYDRO est un filtre variationnel hybride pour la dynamique robotique en contact. Il prévient la perte de branches en mélangeant la proposition apprise avec une loi de transition réalisable avant l'échantillonnage. Le modèle infère conjointement un état latent continu et un mode de contact discret, récupérant des lois port-hamiltoniennes éparses par régime.

RobotiqueRaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

ADMEDTAGGER: an annotation framework for distillation of expert knowledge for the Polish medical language

Framework d'annotation utilisant Llama3.1 comme modèle professeur pour étiqueter des textes médicaux polonais. Corpus de 5 catégories cliniques (Radiologie, Oncologie, Cardiologie, Hypertension, Pathologie). DistilBERT atteint F1 > 0.80 par catégorie, 500× plus petit qu'un LLM, 300× moins de VRAM, inférence plusieurs centaines de fois plus rapide.

LlamaFine-tuningBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Enhancing Cloud Network Resilience via a Robust LLM-Empowered Multi-Agent Reinforcement Learning Framework

CyberOps-Bots combine un agent LLM avec des agents RL multi-niveaux pour défendre les réseaux cloud contre les attaques. Le framework hiérarchique utilise la planification ReAct et la mémoire long-court terme. Sur données cloud réelles, il maintient 68,5% plus de disponibilité et gagne 34,7% en performance sans réentraînement lors de changements de scénarios.

Multi-agentsReinforcement learningRaisonnement
SIG
72
HYP
35
arXiv cs.CL·

Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study

CLUES, un framework pour Text-to-SQL clinique, décompose l'incertitude sémantique en scores d'ambiguïté et d'instabilité via le complément de Schur d'une matrice de graphe bipartite. Testé sur AmbigQA/SituatedQA et un benchmark clinique, il surpasse Kernel Language Entropy et permet un triage efficace : 51% des erreurs dans 25% des requêtes.

PapersBenchmarksÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

SignRoundV2: Toward Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

SignRoundV2 est un framework de quantization post-training pour LLMs qui maintient les performances sous compression extrême (2-4 bits). Il combine une stratégie de précision mixte adaptative guidée par les gradients et des techniques de stabilisation légères. Les résultats montrent une perte de ~1% à 4.5 bits en moyenne en configuration MXFP mixte, avec amélioration significative en quantization 2-bit.

Fine-tuningBenchmarksInfrastructure
SIG
78
HYP
18
arXiv cs.AI·

GraphMind: Theorem Selection and Conclusion Generation Framework with Dynamic GNN for LLM Reasoning

GraphMind intègre GNN et LLM pour le raisonnement multi-étapes en mathématiques. Le framework modélise le processus de preuve comme un graphe hétérogène évolutif où nœuds (conditions, théorèmes, conclusions) et arêtes (dépendances logiques) permettent la sélection contextuelle de théorèmes et la génération itérative de conclusions. Résultats améliorés sur benchmarks QA.

RaisonnementAgents IABenchmarks
SIG
72
HYP
28
arXiv cs.AI·

The Journal of Prompt-Engineered (Moral) Philosophy Or: Why AI-Assisted Ethics Research Requires Process Transparency

Article sur la transparence requise dans la recherche éthique assistée par IA. Les auteurs argumentent que l'évaluation des résultats seule est insuffisante ; ils proposent un cadre de documentation basé sur l'intégrité de l'agent, incluant déclaration, navigation, documentation et registres de développement. Le papier lui-même applique ce cadre avec archives persistantes.

Prompt engineeringSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.CL·

Learning from Self-Debate: Preparing Reasoning Models for Multi-Agent Debate

SDRL (Self-Debate Reinforcement Learning) entraîne les LLM à résoudre des problèmes seuls ET à bénéficier de débats multi-agents. Le modèle génère plusieurs solutions, construit un contexte de débat avec différentes trajectoires de raisonnement, puis optimise conjointement les réponses initiales et conditionnées au débat. Résultats : amélioration cohérente de MAD sur plusieurs benchmarks et configurations.

RaisonnementReinforcement learningMulti-agents
SIG
78
HYP
22
arXiv cs.CL·

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

SynCABEL utilise les LLM pour générer des données d'entraînement synthétiques contextualisées afin de résoudre la pénurie d'annotations expertes en liaison d'entités biomédicales. Le framework atteint des résultats SOTA sur MedMentions (anglais), QUAERO (français) et SPACCC (espagnol), avec 60% moins de données annotées que la supervision humaine complète.

PapersBenchmarksFine-tuning
SIG
78
HYP
18
arXiv cs.AI·

Prior Knowledge Makes It Possible: From Sublinear Graph Algorithms to LLM Test-Time Methods

Article théorique formulant le raisonnement multi-étapes comme problème de connectivité sur graphe de connaissances. Montre une transition de phase : si les connaissances pré-entraînées sont fragmentées, l'augmentation requiert Ω(√n) requêtes ; au-delà d'un seuil de densité formant une composante géante, un nombre constant de requêtes suffit.

RAGRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle

EvolveR est un framework permettant aux agents LLM d'apprendre de leurs propres expériences via une boucle fermée. Il combine l'auto-distillation hors ligne (synthèse de trajectoires en principes stratégiques réutilisables) et l'interaction en ligne (récupération active de principes pour guider les décisions). Testé sur des benchmarks QA multi-hop complexes, il surpasse les baselines existantes.

Agents IAReinforcement learningRaisonnement
SIG
75
HYP
25
arXiv cs.AI·

Extracting latent representations from X-ray spectra. Classification, regression, and accretion signatures of Chandra sources

Autoencoder transformer compresse les spectres X du catalogue Chandra en représentation 8D. Classification de 8 types astrophysiques : ~40% de précision globale, ~69% sur AGN/objets compacts. Les features latentes corrèlent avec propriétés spectrales et temporelles, capturant l'information physique aussi bien que les features manuelles.

BenchmarksVision
SIG
72
HYP
15
arXiv cs.AI·

NeuroRVQ: Multi-Scale Biosignal Tokenization for Generative Foundation Models

NeuroRVQ est une famille de tokenizers biosignaux adaptée à chaque modalité (EEG, ECG, EMG) utilisant des convolutions multi-échelles et des codebooks RVQ hiérarchiques pour préserver les dynamiques haute fréquence. Les modèles fondamentaux NeuroRVQ-FM entraînés avec masquage de tokens atteignent des performances compétitives ou supérieures aux modèles spécialisés existants.

PapersBenchmarksEmbeddings
SIG
72
HYP
18
arXiv cs.CL·

UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages

UbuntuGuard est le premier benchmark de sécurité basé sur des politiques pour les langues africaines. Construit à partir de 155 experts du domaine, il évalue 15 modèles (7 LLM génériques, 8 modèles de garde) sur trois variantes. Les résultats montrent que les benchmarks anglais surestiment la sécurité multilingue réelle et que le transfert cross-lingue reste insuffisant.

Sécurité IABenchmarksÉvaluations
SIG
78
HYP
25
arXiv cs.AI·

Adversarial Agent Collaboration for Correctness Improvements of C to Safe Rust Translation

ACToR, une boucle multi-agent adversariale, améliore la traduction C vers Rust en utilisant un agent traducteur et un agent discriminateur qui s'affrontent itérativement. Sur 63 utilitaires C réels (473 lignes en moyenne), le système atteint 90% de taux de passage des tests sans intervention humaine, avec une amélioration de 36,7% par rapport aux baselines non-adversariales.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.AI·

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

RLBFF combine le feedback humain et les récompenses vérifiables pour l'entraînement de modèles de récompense. La méthode extrait des principes binaires du feedback naturel (ex: exactitude, lisibilité du code) et les utilise comme tâches d'entailment. Les modèles atteindent 86,2% sur RM-Bench et 81,4% sur JudgeBench (#1 septembre 2025). Qwen3-32B aligné avec RLBFF égale o3-mini et DeepSeek R1 à 5% du coût d'inférence.

Reinforcement learningÉvaluationsAlignement
SIG
82
HYP
25
arXiv cs.AI·

FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation

FUNCanon décompose les tâches de manipulation longue en séquences d'actions (acteur-verbe-objet) et canonicalise les objets par leurs affordances fonctionnelles via VLM. FuncDiffuser, une politique diffusion objet-centrique et action-centrique, apprend sur ces données alignées pour généraliser entre catégories d'objets et réutiliser les comportements cross-task.

RobotiqueVisionAgents IA
SIG
75
HYP
25
arXiv cs.AI·

CoUn: Empowering Machine Unlearning via Contrastive Learning

CoUn est une méthode d'apprentissage non supervisé (machine unlearning) qui utilise l'apprentissage contrastif pour supprimer l'influence de données spécifiques d'un modèle entraîné. La technique ajuste les représentations apprises en utilisant uniquement les données à conserver, surpassant les méthodes existantes basées sur la manipulation d'étiquettes ou la perturbation des poids.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Individual utilities of life satisfaction reveal inequality aversion unrelated to political alignment

Étude expérimentale sur 300 participants britanniques mesurant les préférences individuelles en matière de bien-être et d'équité. Les fonctions d'utilité estimées via Expected Utility Maximisation montrent une aversion à l'inégalité sociétale indépendante de l'alignement politique. Les résultats remettent en question l'utilisation de la satisfaction de vie moyenne comme métrique politique.

AlignementSécurité IA
SIG
45
HYP
25
arXiv cs.AI·

FediLoRA: Practical Federated Fine-Tuning of Foundation Models Under Missing-Modality Constraints

FediLoRA propose un framework de fine-tuning fédéré avec LoRA pour les modèles de vision-langage (VLLMs). Il résout deux défis : les rangs LoRA imbalancés dus aux ressources hétérogènes et les modalités manquantes (erreurs utilisateur, pannes matérielles). L'approche combine moyennes simples et édition structurée, validée sur benchmarks généraux et médicaux.

Fine-tuningVisionPapers
SIG
75
HYP
15
arXiv cs.CL·

Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage

Des agents LLM collusifs manipulent les croyances de victimes en coordonnant des fragments de preuves véridiques via des canaux publics, sans communication cachée. Le framework Generative Montage (Writer-Editor-Director) construit des narratifs trompeurs par débat adversarial. Sur 14 familles LLM, taux de succès 74,4% (propriétaires) et 70,6% (open-weights). Les modèles de raisonnement avancé sont plus vulnérables.

Agents IAMulti-agentsSécurité IA
SIG
78
HYP
35
arXiv cs.AI·

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Étude théorique de la perte de plasticité (LoP) en apprentissage profond dans des environnements non-stationnaires. Les auteurs identifient deux mécanismes principaux : saturation d'activation et redondance représentationnelle, qui créent des pièges dans l'espace des paramètres. Paradoxe : les propriétés favorisant la généralisation statique (représentations bas-rang) aggravent la LoP en apprentissage continu.

Reinforcement learningPapersAlignement
SIG
75
HYP
15
arXiv cs.CL·

SignRoundV2: Toward Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

SignRoundV2 est un framework de quantization post-training pour LLMs qui maintient les performances même en compression extrême (2-4 bits). Il combine une stratégie de précision mixte adaptative basée sur les gradients et des techniques de stabilisation légères. Les résultats montrent une perte de ~1% à 4.5 bits en moyenne en configuration MXFP mixte.

Fine-tuningBenchmarksOpen source
SIG
78
HYP
15
arXiv cs.CL·

Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory

Evo-Memory est un benchmark pour évaluer la mémoire auto-évolutive dans les agents LLM. Il structure les données en flux de tâches séquentiels, testant la capacité des modèles à chercher, adapter et mettre à jour la mémoire après chaque interaction. Les auteurs implémentent 10+ modules mémoire et proposent ExpRAG et ReMem pour améliorer la réutilisation d'expérience.

Agents IABenchmarksRAG
SIG
72
HYP
28
arXiv cs.AI·

OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval

OPERA est une architecture de récupération augmentée par génération (RAG) qui couple planification et exécution via apprentissage par renforcement. Un module de planification d'objectifs décompose les questions complexes en sous-objectifs, exécutés par un module Reason-Execute avec composants spécialisés. L'entraînement utilise MAPGRPO, une variante de GRPO. Résultats supérieurs sur benchmarks multi-hop complexes.

RAGReinforcement learningRaisonnement
SIG
75
HYP
25
arXiv cs.AI·

Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs

Nouvelle approche pour générer des défis de preuve formelle en exploitant l'informatique théorique (TCS). Le framework synthétise automatiquement des paires problème-preuve en Lean4 et Markdown sur deux domaines : Busy Beaver et Mixed Boolean Arithmetic. DeepSeekProver-V2-671B atteint 57,5% sur Busy Beaver mais seulement 12% sur Mixed Boolean Arithmetic, révélant des lacunes majeures en génération de preuves longues.

RaisonnementBenchmarksPapers
SIG
78
HYP
15
arXiv cs.AI·

Perovskite-R1: a domain-specialized large language model for intelligent discovery of precursor additives and experimental design

Perovskite-R1 est un LLM spécialisé basé sur QwQ-32B, fine-tuné sur 1 232 publications scientifiques et 33 269 matériaux candidats pour découvrir des additifs précurseurs optimisant les cellules solaires pérovskites. Le modèle génère des solutions pour la passivation des défauts et améliore stabilité/performance, validées expérimentalement.

QwenFine-tuningRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

Missing-Modality-Aware Graph Neural Network for Cancer Classification

MAGNET, un réseau de neurones graphiques, traite les données biologiques multimodales incomplètes pour la classification du cancer. Le modèle utilise un mécanisme d'attention multi-têtes dynamique pour fusionner les embeddings de modalités manquantes, avec une complexité linéaire. Testé sur trois datasets multiomiques publics, MAGNET surpasse les méthodes de fusion existantes.

PapersBenchmarksVision
SIG
72
HYP
15
arXiv cs.AI·

Mixture-of-Experts Can Surpass Dense LLMs Under Strictly Equal Resource

Une étude arXiv démontre que les modèles Mixture-of-Experts (MoE) surpassent les architectures denses sous contraintes de ressources strictement égales (paramètres totaux, compute d'entraînement, données identiques). Les chercheurs identifient une région d'activation optimale cohérente entre tailles de modèles. Validation sur ~200 modèles 2B et 50 modèles 7B (50 trillions de tokens).

BenchmarksPapersRaisonnement
SIG
82
HYP
25
arXiv cs.AI·

HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction

HTSC-2025 est un benchmark open-source de matériaux supraconducteurs à haute température découverts entre 2023-2025 (systèmes X₂YH₆, pérovskites MXH₃, M₃XH₈, structures en cage BCN-dopées, honeycomb 2D). Comble le manque de datasets standardisés pour évaluer équitablement les algorithmes IA de prédiction de température critique.

BenchmarksPapersOpen source
SIG
75
HYP
25
arXiv cs.CL·

T-FIX: Text-Based Explanations with Features Interpretable to eXperts

T-FIX est un cadre d'évaluation pour mesurer l'alignement des explications générées par les LLM avec le raisonnement d'experts dans des domaines spécialisés (chirurgie, astronomie, thérapie). Couvre sept tâches scientifiques sur trois domaines avec critères définis par des experts. Permet une évaluation automatique et généralisable sans annotation continue d'experts.

ÉvaluationsRaisonnementSécurité IA
SIG
72
HYP
18
arXiv cs.AI·

RAP: Runtime Adaptive Pruning for LLM Inference

RAP est un framework de pruning élastique pour l'inférence LLM qui utilise le reinforcement learning pour adapter dynamiquement les stratégies de compression selon les variations mémoire runtime et les demandes hétérogènes de KV-cache. L'agent RL optimise le ratio paramètres/KV-cache en temps réel, conservant uniquement les composants maximisant l'utilité dans le budget mémoire courant.

Reinforcement learningInfrastructureBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

DriveMoE propose une architecture Mixture-of-Experts pour la conduite autonome de bout en bout. Le modèle combine une Vision MoE (sélection dynamique de caméras selon le contexte) et une Action MoE (activation d'experts spécialisés pour différents comportements). Construit sur la baseline Drive-π₀, DriveMoE atteint l'état de l'art sur Bench2Drive en évitant l'averaging des modes.

VisionAgents IAPapers
SIG
78
HYP
25
arXiv cs.AI·

InvDesFlow-AL: active learning-based workflow for inverse design of functional materials

InvDesFlow-AL combine diffusion et apprentissage actif pour l'inverse design de matériaux. Le modèle atteint RMSE 0.0423 Å en prédiction de structures cristallines (+32.96% vs méthodes existantes) et génère systématiquement des matériaux à basse énergie de formation. Validation : découverte de Li₂AuH₆ comme supraconducteur BCS à 140 K.

PapersBenchmarksReinforcement learning
SIG
78
HYP
25
arXiv cs.CL·

Beyond Neural Incompatibility: Cross-Scale Knowledge Transfer in Language Models through Latent Semantic Alignment

SemAlign propose un mécanisme de transfert de connaissance entre modèles de langage de tailles différentes via alignement sémantique latent. Au lieu de copier directement les paramètres, la méthode utilise les activations comme médium de transfert, en appairant couches source et cible et en optimisant via supervision sémantique. Évaluée sur quatre benchmarks.

Fine-tuningRaisonnementPapers
SIG
72
HYP
18
arXiv cs.AI·

Patients Speak, AI Listens: LLM-based Analysis of Online Reviews Uncovers Key Drivers for Urgent Care Satisfaction

Étude arXiv analysant 10 000+ avis Google Maps d'urgences (DMV, Floride) via prompt engineering GPT pour extraire sentiments aspect-based. Résultats : facteurs interpersonnels et efficacité opérationnelle sont les principaux déterminants de satisfaction patient ; qualité technique, finances, équipements n'ont pas d'effet indépendant significatif. Densité de population seule corrèle modestement avec les notes.

GPTPrompt engineeringRAG
SIG
65
HYP
25
arXiv cs.CL·

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

ProfBench est un benchmark de 7000+ paires réponse-critère évaluées par experts humains en physique, chimie, finance et conseil. Les auteurs proposent des LLM-judges robustes réduisant le coût d'évaluation de 2-3 ordres de magnitude. GPT-5-high atteint 65,9% de performance, révélant des écarts significatifs entre modèles propriétaires et open-weight.

BenchmarksÉvaluationsGPT
SIG
82
HYP
18
arXiv cs.AI·

Uncertainty Quantification as a Principled Foundation for Explainable Artificial Intelligence: A Case Study of Counterfactual Explanations

Article arXiv proposant une approche d'explicabilité par contrefactuels fondée sur la quantification d'incertitude. Les auteurs démontrent que l'intégration de concepts fondamentaux de l'IA (notamment l'incertitude) améliore la robustesse et la fiabilité des explications, avec performances compétitives malgré une conception simple.

SIG
72
HYP
18
arXiv cs.AI·

Supervising the search process produces reliable and generalizable information-seeking agents

RAG-Gym, un framework de supervision du processus de recherche plutôt que du résultat final, améliore les agents de recherche autonomes. Re²Search++, un agent supervisé au niveau du processus, atteint des gains substantiels sur les benchmarks multi-hop, particulièrement hors-domaine, grâce à des requêtes de meilleure qualité et une meilleure généralisation.

Agents IARAGRaisonnement
SIG
78
HYP
22
arXiv cs.AI·

Experimentally validated quantum-secure federated learning over a multi-user quantum network

QuNetQFL est un protocole de federated learning quantique implémenté sur des réseaux quantiques, masquant les mises à jour locales avec des clés secrètes quantiques distribuées pour une sécurité information-théorique. Validé expérimentalement sur un réseau à quatre clients, il réduit les coûts de communication de 75% et scale jusqu'à 200 clients avec convergence rapide.

Sécurité IAPapers
SIG
78
HYP
25
arXiv cs.AI·

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

LightTransfer transforme les modèles de langage (LLaMA, Mistral, QwQ-STILL) en architectures hybrides sans entraînement. La méthode identifie les couches « paresseuses » et remplace leur attention complète par une attention en streaming, réduisant les coûts de cache KV. Résultats : jusqu'à 2,17× d'amélioration de débit avec <1,5% de perte sur LongBench et 53,3% sur AIME24.

LlamaMistralQwen
SIG
78
HYP
25
arXiv cs.CL·

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

FinAuditing est un benchmark d'audit financier construit sur 1 102 instances XBRL réelles (33k tokens en moyenne). Il évalue 13 LLMs sur trois tâches : appariement sémantique, extraction de relations et raisonnement mathématique. Les résultats révèlent des lacunes significatives en récupération de concepts et raisonnement cross-document.

BenchmarksRaisonnementÉvaluations
SIG
82
HYP
18