Archives

mai 2026

3148 articles

arXiv cs.AI·

Revisiting Long-term Time Series Forecasting: An Investigation on Linear Mapping

Étude arXiv sur la prévision de séries temporelles long-terme (LTSF). Les auteurs montrent qu'une simple couche linéaire (affine mapping) domine les performances sur les benchmarks standards. L'analyse révèle que les modèles apprennent des matrices de transition similaires, capturent bien les motifs périodiques mais échouent sur les signaux non-périodiques. Code disponible.

BenchmarksPapersRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Property-Guided LLM Program Synthesis for Planning

Approche de synthèse de programmes guidée par propriétés formelles pour réduire les coûts LLM. Au lieu de scores numériques simples, le système vérifie si un candidat satisfait une propriété définie formellement et fournit des contre-exemples concrets en cas de violation. Sur des domaines PDDL, cette méthode génère 7× moins de programmes et réduit drastiquement les coûts d'évaluation.

Génération de codeRaisonnementReinforcement learning
SIG
78
HYP
15
arXiv cs.CL·

Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts

Red-Bandit est un framework de red-teaming qui adapte en temps réel des experts LoRA spécialisés dans différents styles d'attaque (manipulation, argot) via apprentissage par renforcement. Un algorithme de bandit multi-bras sélectionne dynamiquement l'expert optimal selon la sécurité des réponses du modèle cible. Résultats SOTA sur AdvBench avec prompts plus lisibles.

Sécurité IAFine-tuningReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration - Learning from Cheap, Optimizing Expensive

AutoLLMResearch propose un framework agentic pour automatiser la configuration d'expériences LLM coûteuses. Le système apprend de petites expériences bon marché pour extrapoler vers des configurations prometteuses en haute-fidélité. LLMConfig-Gym fournit un environnement multi-fidélité avec >1M heures GPU d'expériences vérifiées.

Agents IAReinforcement learningBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Causal Bias Detection in Generative Artificial Intelligence

Article arXiv proposant un cadre théorique pour détecter les biais causaux dans les modèles génératifs IA. Les auteurs formalisent la notion de fairness causale spécifique aux modèles génératifs (vs ML classique), dérivent des décompositions causales pour quantifier les impacts de biais selon différents chemins causaux, et démontrent leur méthodologie en analysant les biais de race et genre dans les LLM.

PapersSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.AI·

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

VLATIM, un nouveau benchmark basé sur The Incredible Machine 2, évalue les capacités de raisonnement logique des Vision-Language Models dans des jeux de puzzle point-and-click. Les résultats montrent un écart significatif : les grands modèles propriétaires excellent en planification mais échouent en localisation visuelle précise, sans atteindre les capacités humaines.

VisionRaisonnementBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents

EnactToM est un benchmark d'IA évolutif contenant 300 tâches multi-agents en environnement 3D avec observabilité partielle. Il teste la capacité des agents à agir sur des croyances implicites (ToM fonctionnelle) plutôt que de répondre à des questions directes. Les 7 modèles frontière évalués obtiennent 0% sur les tâches difficiles, révélant des défaillances en coordination épistémique.

Multi-agentsRaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

ScaleLogic, un framework de raisonnement logique synthétique, montre que l'RL peut enseigner le raisonnement long-horizon aux LLMs. Le coût d'entraînement suit une loi de puissance avec la profondeur de preuve (T ∝ D^γ, R² > 0.99), l'exposant γ augmentant de 1.04 à 2.60 avec l'expressivité logique. Les modèles entraînés sur des logiques plus expressives transfèrent mieux (+10.66 points sur benchmarks).

Reinforcement learningRaisonnementBenchmarks
SIG
82
HYP
18
arXiv cs.AI·

HAAS: A Policy-Aware Framework for Adaptive Task Allocation Between Humans and Artificial Intelligence Systems

HAAS est un framework pour l'allocation adaptative de tâches entre humains et systèmes IA en ingénierie logicielle et fabrication. Il combine un système expert basé sur des règles de gouvernance avec un apprentissage par bandit contextuel. Les résultats montrent que la gouvernance n'est pas binaire mais un paramètre ajustable : une gouvernance modérée améliore performance et réduit la fatigue en fabrication.

Agents IAMulti-agentsReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

MolClaw: An Autonomous Agent with Hierarchical Skills for Drug Molecule Evaluation, Screening, and Optimization

MolClaw est un agent autonome avec architecture hiérarchique à 3 niveaux (70 compétences) pour l'évaluation, le criblage et l'optimisation de molécules pharmaceutiques. Il intègre 30+ ressources spécialisées et atteint des performances SOTA sur MolBench, un benchmark de 8 à 50+ appels d'outils séquentiels. Les gains proviennent principalement de l'orchestration de workflows structurés.

Agents IAMulti-agentsBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

General-purpose LLMs as Models of Human Driver Behavior: The Case of Simplified Merging

Étude comparant OpenAI o3 et Google Gemini 2.5 Pro comme modèles de comportement humain au volant dans un scénario de fusion simplifié. Les LLMs reproduisent le contrôle opérationnel intermittent et les dépendances tactiques, mais échouent à capturer les réponses aux indices de vélocité dynamique. Les ablations de prompts révèlent des biais inductifs non transférables entre modèles.

GPTGeminiRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

A Comparative Study in Surgical AI: Potential and Limitations of Data, Compute, and Scaling

Étude comparative sur l'IA chirurgicale : les modèles Vision-Language multi-milliards de paramètres échouent sur la détection d'instruments en neurochirurgie malgré l'entraînement extensif. Les expériences de scaling montrent des améliorations décroissantes. Les obstacles persistent across architectures, suggérant que données et compute seuls ne suffisent pas.

VisionBenchmarksPapers
SIG
75
HYP
15
arXiv cs.CL·

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Étude montrant que l'oubli dans les LLM supprime l'information en surface seulement : les modèles retrouvent leur comportement original via un fine-tuning minimal. Les auteurs proposent un cadre d'analyse au niveau représentationnel (PCA, CKA, Fisher information) pour évaluer la véritable suppression de données et identifient quatre régimes d'oubli selon réversibilité et catastrophicité.

PapersSécurité IAAlignement
SIG
78
HYP
15
arXiv cs.CL·

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

UniversalRAG étend la génération augmentée par récupération (RAG) à des corpus hétérogènes multi-modaux (texte, images, vidéos) avec granularités variables. Le framework propose un routage conscient de la modalité pour éviter le biais intra-modal et récupérer dynamiquement dans le corpus approprié. Validation sur 10 benchmarks multi-modaux.

RAGVisionMulti-agents
SIG
75
HYP
25
arXiv cs.AI·

Ontology-Constrained Neural Reasoning in Enterprise Agentic Systems: A Neurosymbolic Architecture for Domain-Grounded AI Agents

Architecture neurosymbolique avec ontologies (Role, Domain, Interaction) pour agents LLM en entreprise. Expérience contrôlée (1 800 runs, Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B) : agents ontologie-contraints surpassent agents non-grounded sur précision métrique et cohérence de rôle (p < .001). Gain 2x plus élevé sur domaines localisés (Vietnam) où couverture LLM est faible.

Agents IAClaudeRaisonnement
SIG
78
HYP
25
arXiv cs.CL·

Patients Speak, AI Listens: LLM-based Analysis of Online Reviews Uncovers Key Drivers for Urgent Care Satisfaction

Étude arXiv analysant 10 000+ avis Google Maps d'urgences (DMV, Floride) via GPT et prompt engineering. Les facteurs interpersonnels et l'efficacité opérationnelle sont les principaux déterminants de satisfaction, tandis que qualité technique, finances et équipements n'ont pas d'effet indépendant significatif. Densité de population seule corrèle avec les notes parmi les facteurs socioéconomiques.

GPTPrompt engineeringPapers
SIG
65
HYP
25
arXiv cs.CL·

Supervising the search process produces reliable and generalizable information-seeking agents

RAG-Gym, un framework de supervision du processus de recherche plutôt que des réponses finales, améliore les agents de recherche autonomes. Re²Search++ utilise la supervision de processus et la réflexion de raisonnement pour générer des requêtes de meilleure qualité, avec gains significatifs sur les benchmarks multi-hop et meilleure généralisation hors-domaine.

RAGAgents IARaisonnement
SIG
78
HYP
22
arXiv cs.AI·

Online Algorithms with Unreliable Guidance

Nouvel article arXiv présentant OAG (Online Algorithms with Unreliable Guidance), un modèle pour l'apprentissage augmenté en ligne qui sépare composantes prédictives et algorithmiques. Introduit le compilateur DTB (drop-or-trust-blindly) convertissant algorithmes online standards en versions augmentées. Démontre garanties optimales sur matching bipartite, caching et tâches métriques uniformes.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

The Alien Space of Science: Sampling Coherent but Cognitively Unavailable Research Directions

Un framework utilise des modèles de langage pour identifier des directions de recherche « alien » — cohérentes avec la littérature existante mais improbables sous la distribution actuelle des chercheurs. Sur 16 068 papiers IA/NLP, la méthode explore 3,5-7× plus d'espace conceptuel que les baselines tout en maintenant la cohérence scientifique.

PapersRaisonnementBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Les modèles de raisonnement long (LRM) génèrent des chaînes de pensée redondantes sans corrélation avec la justesse. L'article découvre que les LRM savent implicitement quand arrêter. SAGE (Self-Aware Guided Efficient Reasoning) exploite cette capacité via un nouveau paradigme d'échantillonnage, améliorant précision et efficacité sur benchmarks mathématiques.

RaisonnementReinforcement learningBenchmarks
SIG
72
HYP
28
arXiv cs.CL·

Mitigating Extrinsic Gender Bias for Bangla Classification Tasks

Étude sur le biais de genre extrinsèque dans les modèles de langage préentraînés en bengali. Construction de 4 datasets annotés manuellement (analyse de sentiment, détection de toxicité, discours haineux, sarcasme) avec perturbations de genre minimales. Proposition de RandSymKL, stratégie de débiaisage combinant divergence KL symétrique et cross-entropy. Code et datasets publics.

BenchmarksSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.AI·

When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents

Étude révélant une vulnérabilité de sécurité dans les agents dialogues personnalisés : la mémoire à long terme biaise l'inférence d'intention et légitime des requêtes nuisibles. PS-Bench, un benchmark, montre que la personnalisation augmente les taux de succès d'attaque de 15,8 % à 243,7 % comparé aux baselines sans état. Une méthode de détection-réflexion légère est proposée pour réduire cette dégradation.

Sécurité IAAgents IABenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Inference-Time Diversity in RL-Trained Lean Theorem Provers: A Diagnostic Study

Les prouveurs de théorèmes Lean entraînés par RL souffrent d'effondrement modal à l'inférence : doubler l'échantillonnage de k=32 à k=64 sur miniF2F-test avec DeepSeek-Prover-V1.5-RL ne résout zéro théorème supplémentaire (42/244). Une diversité structurelle fixe de 15 squelettes tactiques récupère +45% d'amélioration relative à k=16 (+12.3±4.2 théorèmes). Le phénomène est spécifique à RL et orthogonal au scaling.

RaisonnementReinforcement learningBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

MirrorBench: A Benchmark to Evaluate Conversational User-Proxy Agents for Human-Likeness

MirrorBench est un framework de benchmark pour évaluer les agents proxy utilisateur dans les systèmes conversationnels. Il combine 6 métriques (MATTR, Yule's K, HD-D, GTEval, Pairwise Indistinguishability, Rubric-and-Reason) pour mesurer le réalisme des énoncés générés par des LLM simulant des utilisateurs, sur 4 datasets publics. Code open-source disponible.

Agents IAÉvaluationsBenchmarks
SIG
75
HYP
15
arXiv cs.AI·

The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety

Article arXiv sur l'homogénéisation dans les LLM : les modèles reproduisent et amplifient les biais humains via l'effondrement de mode. Les auteurs proposent un cadre pour caractériser cette homogénéisation en termes de normalité (théorie queer) et introduisent la « xéno-reproduction » pour promouvoir la diversité. Expérience sur Claude 3.5 Haiku montrant les biais de genre.

ClaudeSécurité IAAlignement
SIG
72
HYP
25
arXiv cs.CL·

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Vision-OPD propose une auto-distillation régionale-globale pour améliorer la compréhension visuelle fine des MLLMs. Le framework transfère la perception privilégiée du modèle sur des crops centrés sur les preuves vers sa politique pleine image, via minimisation de divergence KL token-level sur rollouts on-policy. Résultats compétitifs sur benchmarks de compréhension visuelle fine sans modèles externes ni labels.

VisionReinforcement learningPapers
SIG
78
HYP
25
arXiv cs.AI·

AgroCoT: A Chain-of-Thought Benchmark for Evaluating Reasoning in Vision-Language Models for Agriculture

AgroCoT est un benchmark VQA de 4 759 échantillons avec raisonnement Chain-of-Thought pour évaluer les capacités de raisonnement des Vision-Language Models en agriculture. L'évaluation de 30 VLMs (propriétaires et open-source) révèle des lacunes significatives en zéro-shot, soulignant l'importance du CoT pour les applications de précision agricole.

VisionBenchmarksRaisonnement
SIG
75
HYP
25
arXiv cs.AI·

QuickLAP: Quick Language-Action Preference Learning for Semi-Autonomous Agents

QuickLAP fusionne retours physiques et linguistiques pour apprendre les fonctions de récompense de robots en temps réel. Le framework bayésien utilise des LLM pour extraire des masques d'attention et des préférences du langage libre, intégrés aux corrections physiques via une règle de mise à jour fermée. Réduction d'erreur de 70% vs baselines en simulation de conduite autonome.

Agents IAReinforcement learningRaisonnement
SIG
78
HYP
25
arXiv cs.AI·

ALIGN: A Vision-Language Framework for High-Accuracy Accident Location Inference through Geo-Spatial Neural Reasoning

ALIGN est un framework vision-langage pour inférer les coordonnées précises d'accidents routiers à partir de rapports d'actualité en bengali et d'indices cartographiques. Utilisant une architecture agentique combinant OCR, LLM et vision-langage, le système réduit l'erreur de localisation de 10,9 km à 0,593 km en validation et 0,465 km sur données officielles de Dhaka.

VisionAgents IAMulti-agents
SIG
78
HYP
25
arXiv cs.AI·

WELD: The First Naturalistic Long-Period Small-Team Workplace Emotion Dataset for Ubiquitous Affective Computing

WELD est le premier dataset d'émotion en milieu professionnel naturel couvrant 30,1 mois (nov 2021 - mai 2024) avec 49 employés d'une entreprise chinoise. 733 780 vecteurs de probabilité d'expressions faciales 7-classes, validant trois phénomènes établis et révélant six régimes émotionnels asymétriques. Détecte un biais de modèle FER : surprédiction de « colère » sur visages asiatiques neutres (0,194 vs 0,05).

VisionÉvaluationsSécurité IA
SIG
82
HYP
15
arXiv cs.AI·

ProtoSiTex: Learning Semi-Interpretable Prototypes for Multi-label Text Classification

ProtoSiTex est un framework semi-interprétable pour la classification multi-label fine-grained de textes. Il combine une phase de découverte non-supervisée de prototypes avec une phase de classification supervisée utilisant une fonction de perte hiérarchique. Les expériences sur un nouveau benchmark d'avis hôtels et deux benchmarks publics montrent des performances SOTA avec explications fidèles.

ÉvaluationsPapers
SIG
72
HYP
18
arXiv cs.AI·

Position: AI Evaluations Should be Grounded on a Theory of Capability

Article de position argumentant que les évaluations de modèles IA doivent s'appuyer sur une théorie explicite de la capacité, plutôt que de traiter les scores comme des mesures directes. Les auteurs montrent empiriquement que les performances rapportées dépendent fortement des hypothèses de modélisation et proposent une « Evaluation Card » pour documenter les décisions sous-jacentes.

ÉvaluationsBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

An AI system to help scientists write expert-level empirical software

ERA, un système IA combinant LLM et Tree Search, génère automatiquement des logiciels scientifiques de niveau expert. Il a découvert 40 nouvelles méthodes en bioinformatique surpassant les meilleures méthodes humaines, généré 14 modèles épidémiologiques surpassant l'ensemble CDC pour les prévisions COVID-19, et produit des solutions expertes en analyse géospatiale et prédiction neuronale.

Agents IARaisonnementGénération de code
SIG
82
HYP
28
arXiv cs.AI·

EndoCogniAgent: Closed-Loop Agentic Reasoning with Self-Consistency Validation for Endoscopic Diagnosis

EndoCogniAgent est un framework d'agents fermés pour le diagnostic endoscopique itératif. Il couple l'acquisition d'évidences visuelles et le raisonnement multi-étapes via validation d'auto-cohérence (cohérence avec l'image et cohérence temporelle). Sur EndoAgentBench (6 132 QA de 11 datasets), le système atteint 85,23% en perception et 71,13% d'acceptabilité clinique.

Agents IARaisonnementVision
SIG
78
HYP
25
arXiv cs.AI·

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

GenoMAS est un framework multi-agent basé sur LLM pour l'analyse d'expression génique. Six agents spécialisés orchestrés via protocoles de passage de messages typés combinent workflows structurés et adaptabilité autonome. Sur le benchmark GenoTEX : 89,13% de corrélation pour le prétraitement, F1 de 60,48% pour l'identification de gènes (+10,61% et +16,85% vs état de l'art).

Multi-agentsAgents IAGénération de code
SIG
82
HYP
18
arXiv cs.CL·

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

AMARIS améliore l'apprentissage par renforcement basé sur des rubriques en intégrant une mémoire persistante d'évaluation. Le système accumule les diagnostics d'évaluation au fil du temps, les récupère via recherche statique et sémantique, et adapte les rubriques de récompense en continu. Expériences montrent gains de performance avec ~5% de surcharge temporelle.

Reinforcement learningFine-tuningÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

Automated Knowledge Component Generation for Interpretable Knowledge Tracing in Coding Problems

Pipeline automatisé basé LLM pour générer et étiqueter des composants de connaissances (KC) sur des problèmes de programmation. Le framework KCGen-KT utilise ces KC générés pour le knowledge tracing. Évaluation sur deux datasets réels : surpasse les méthodes existantes et les KC écrits par humains pour prédire les réponses futures des étudiants.

LlamaGénération de codeÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

DashAttention propose une méthode d'attention hiérarchique sparse différentiable utilisant la transformation α-entmax adaptative pour sélectionner un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton offre accélération significative.

RaisonnementBenchmarksInfrastructure
SIG
78
HYP
25
arXiv cs.AI·

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Vision-OPD propose une auto-distillation régionale-globale pour améliorer la compréhension visuelle fine des MLLMs. Le framework transfère la perception privilégiée du modèle sur des crops centrés sur les preuves vers sa politique pleine image, via minimisation de divergence KL entre distributions de tokens. Résultats compétitifs sur benchmarks de compréhension visuelle fine sans modèles externes ni labels.

VisionReinforcement learningBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Reversa: A Reverse Documentation Engineering Framework for Converting Legacy Software into Operational Specifications for AI Agents

Reversa est un framework de rétro-ingénierie documentaire qui convertit les systèmes legacy en spécifications opérationnelles pour agents IA. Un pipeline multi-agents extrait les règles métier implicites, synthétise l'architecture et génère des spécifications traçables avec marquage de confiance. Étude de cas : migration ATM COBOL→Go produisant 517 claims, 10 gaps identifiés et 53 scénarios Gherkin.

Agents IAMulti-agentsGénération de code
SIG
72
HYP
25
arXiv cs.AI·

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

COOPO est un algorithme d'apprentissage par renforcement hybride offline-online qui alterne entre entraînement offline régularisé par KL et fine-tuning online. Le retour cyclique à l'entraînement offline élimine l'oubli catastrophique et la dérive de distribution. Sur les benchmarks D4RL, COOPO réduit les interactions online tout en améliorant les performances finales.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Data Presentation Over Architecture: Resampling Strategies for Credit Risk Prediction with Tabular Foundation Models

Étude comparative de modèles tabulaires (TFMs) vs classiques sur prédiction de défaut de crédit. Sur Home Credit et Lending Club, la stratégie de construction du contexte (sampling équilibré vs uniforme) explique plus de variance en AUC-ROC que le choix du modèle : +3-4 points AUC. Avec 5K-10K exemples équilibrés, les TFMs égalent les GBDTs classiques tout en améliorant le recall.

Benchmarks
SIG
75
HYP
15
arXiv cs.AI·

Position: Weight Space Should Be a First-Class Generative AI Modality

Les poids de réseaux de neurones forment une modalité de données à part entière. Cet article propose de traiter les checkpoints comme des données génératives : synthétiser des poids à la demande égale ou surpasse le fine-tuning tout en réduisant les coûts d'adaptation. Les modèles performants occupent des régions structurées de l'espace des poids (symétrie, modularité, sous-espaces partagés).

Fine-tuningRaisonnementPapers
SIG
65
HYP
35
arXiv cs.CL·

Agentic Chunking and Bayesian De-chunking of AI Generated Fuzzy Cognitive Maps: A Model of the Thucydides Trap

Génération automatique de cartes cognitives floues (FCM) à partir de texte via agents LLM qui segmentent le texte en chunks chevauchants. Mélange convexe des FCM par chunk produit un graphe de connaissance FCM cyclique. Inférence bayésienne opérateur-niveau génère des FCM « de-chunkées ». Démonstration sur le modèle « Thucydides Trap » : 7/8 FCM prédisent un conflit armé. Gemini 3.1 utilisé comme agent.

Agents IAGeminiRAG
SIG
65
HYP
25
arXiv cs.AI·

Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation

RAT (Randomized Advantage Transformation) estime les gradients de politique naturelle régularisés via rétropropagation directe, sans construire explicitement la matrice de Fisher. La méthode utilise la formule de Woodbury et les itérations de Kaczmarz aléatoires sur mini-batches on-policy. Résultats comparables ou supérieurs aux méthodes de gradient naturel établies sur benchmarks de contrôle continu et visuel.

Reinforcement learningRaisonnementPapers
SIG
75
HYP
15
arXiv cs.AI·

Estimating Item Difficulty with Large Language Models as Experts

Étude évaluant trois LLMs off-the-shelf pour estimer la difficulté d'items pédagogiques sans données de réponse. Sur 6 domaines de mathématiques primaires, les corrélations de Spearman montrent alignement modéré à fort avec les difficultés empiriques. Les comparaisons par paires surpassent les jugements absolus; l'ajout de probabilités de tokens et d'exemples few-shot améliore les résultats.

Prompt engineeringÉvaluationsBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models

Les chercheurs identifient l'Entropy-Gradient Inversion, une corrélation négative entre l'entropie des tokens et les gradients de logits, comme signature géométrique des capacités de raisonnement des grands modèles. Ils proposent CorR-PO, une méthode d'optimisation par renforcement qui intègre cette signature dans la régularisation des récompenses, surpassant les baselines sur plusieurs benchmarks de raisonnement.

RaisonnementReinforcement learningBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

DBES: A Systematic Benchmark and Metric Suite for Evaluating Expert Specialization in Large-Scale MoEs

DBES est un cadre diagnostic pour évaluer la spécialisation des experts dans les modèles MoE (Mixture-of-Experts). Cinq métriques théoriques mesurent l'isolation de domaine et la spécialisation du routage. Tests sur Qwen, DeepSeek et GLM révèlent des paradigmes distincts. Post-training ciblé sur experts spécialisés améliore les performances de 66-94% avec 15% des ressources.

BenchmarksQwenDeepSeek
SIG
82
HYP
18
arXiv cs.CL·

SafeLens: Deliberate and Efficient Video Guardrails with Fast-and-Slow Screening

SafeLens propose une architecture de modération vidéo à deux niveaux (fast-and-slow) pour réduire les coûts d'inférence. Le framework filtre le dataset SafeWatch à 2,4% via influence-guided filtering et ajoute des traces Chain-of-Thought. Il surpasse SafeWatch-8B, OmniGuard-7B, GPT-5.4 et Gemini-3.1-pro sur des benchmarks vidéo réels et générés par IA.

VisionSécurité IARaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Ensembling Tabular Foundation Models - A Diversity Ceiling And A Calibration Trap

Six modèles fondamentaux tabulaires modernes forment un ensemble hautement redondant (Q-statistic moyen 0.961). Sur 153 tâches OpenML, le meilleur ensemble (cascade stacking deux niveaux) gagne +0.18% de précision au coût de 253× le calcul. L'analyse Friedman-Nemenyi place trois ensembles et le meilleur modèle seul dans le même groupe d'équivalence. La sélection gloutonne est recommandée.

BenchmarksPapers
SIG
75
HYP
15
arXiv cs.AI·

Modelling Customer Trajectories with Reinforcement Learning for Practical Retail Insights

Cadre de modélisation basé sur l'apprentissage par renforcement (RL) pour prédire les trajectoires clients en magasin. L'approche dépasse les heuristiques TSP/PNN (écart moyen 28% vs chemins optimaux) en capturant la rationalité limitée des clients. Validation sur données réelles : prédictions RL plus alignées avec comportements observés, estimations plus précises des achats impulsifs et densités de trafic.

Reinforcement learningAgents IABusiness
SIG
72
HYP
18
arXiv cs.AI·

Building Reliable Arithmetic Multipliers Under NBTI Aging and Process Variations

Papier sur l'atténuation du vieillissement NBTI dans les multiplicateurs arithmétiques utilisés en IA. La technique exploite l'invariance de signe de la multiplication pour redistribuer le stress transistor via transformations en complément à 2. Intégrée aux systolic arrays, elle améliore la durée de vie avec surcoûts négligeables en surface et délai.

PapersBenchmarksSécurité IA
SIG
72
HYP
15
arXiv cs.CL·

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Des chercheurs entraînent KinGPT (25M paramètres) sur des données d'échecs et montrent que les performances élevées des modèles fine-tunés sur les échecs résultent surtout du pattern-matching, non de la compréhension réelle. LLM-Modulo, un framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de meilleur coup. Code, données et checkpoints open-sourcés.

BenchmarksÉvaluationsFine-tuning
SIG
75
HYP
25
arXiv cs.AI·

Qumus: Realization of An Embodied AI Quantum Material Experimentalist

Qumus est le premier système d'IA incarnée pour la science expérimentale : un robot de laboratoire autonome capable de générer des hypothèses, planifier des protocoles et exécuter des expériences sur matériaux quantiques 2D. Il a créé pour la première fois du graphène par IA et fabriqué des transistors via empilement van der Waals, avec correction d'erreurs en boucle fermée.

Agents IAMulti-agentsRobotique
SIG
82
HYP
35
arXiv cs.AI·

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

SkillsVote est un framework de gouvernance du cycle de vie des skills d'agents IA, depuis leur collecte jusqu'à leur évolution. Il profile un corpus open-source à l'échelle du million pour la qualité et la vérifiabilité, puis décompose les trajectoires en subtasks attribuées aux skills. Amélioration : +7.9pp sur Terminal-Bench 2.0 (GPT-5.2) et +2.6pp sur SWE-Bench Pro.

Agents IABenchmarksGénération de code
SIG
72
HYP
25
arXiv cs.AI·

Towards Ubiquitous Mapping and Localization for Dynamic Indoor Environments

UbiSLAM propose un système de cartographie et localisation en temps réel pour environnements intérieurs dynamiques utilisant un réseau de caméras RGB-D fixes. Cette approche réduit la charge computationnelle des robots et améliore la précision de navigation et les interactions humain-robot, tout en nécessitant une calibration automatique et des protocoles de communication optimisés pour gérer les zones d'ombre.

RobotiqueVision
SIG
45
HYP
25