mai 2026

3149 articles

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

AASIST3 améliore la détection de deepfakes vocaux en intégrant des réseaux de Kolmogorov-Arnold (KAN) au framework AASIST. Le modèle atteint minDCF=0.5357 (closed) et 0.1414 (open) sur ASVspoof 2024, doublant les performances précédentes. Code disponible sur HuggingFace.

Voix Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

$\texttt{SynC}$: Synergistic Boosting of Structure and Representation for Deep Graph Clustering

SynC, un framework de clustering de graphes profonds, exploite une relation synergique entre apprentissage de représentation et augmentation de structure via un auto-encodeur de graphe transformé (TIGAE). Le modèle partage les poids entre deux étapes pour réduire les paramètres et améliore la généralisation sur graphes faiblement homophiles.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Universal Time-Series Representation Learning: A Survey

Sondage sur l'apprentissage de représentations universelles pour séries temporelles. Propose une taxonomie basée sur trois éléments fondamentaux pour les méthodes de deep learning. Couvre l'extraction de motifs cachés sans ingénierie manuelle de features, avec ressources et directions futures.

Papers Benchmarks Embeddings

SIG

HYP

arXiv cs.CL·19 mai

Scaling Laws for Code: A More Data-Hungry Regime

Étude empirique de 117 expériences (0.2B–3.8B paramètres, 2B–128B tokens) sur les lois de scaling pour les Code LLMs. Le code nécessite un ratio données/paramètres plus élevé que le langage naturel. La loi de Farseer surpasse Chinchilla. Les mélanges code-NL bénéficient au NL en ressources limitées, mais le pénalisent à budgets élevés.

Génération de code Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Revisiting Long-term Time Series Forecasting: An Investigation on Linear Mapping

Étude arXiv sur la prévision de séries temporelles long-terme (LTSF). Les auteurs montrent qu'une simple couche linéaire (affine mapping) domine les performances sur les benchmarks standards. L'analyse révèle que les modèles apprennent des matrices de transition similaires, capturent bien les motifs périodiques mais échouent sur les signaux non-périodiques. Code disponible.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Property-Guided LLM Program Synthesis for Planning

Approche de synthèse de programmes guidée par propriétés formelles pour réduire les coûts LLM. Au lieu de scores numériques simples, le système vérifie si un candidat satisfait une propriété définie formellement et fournit des contre-exemples concrets en cas de violation. Sur des domaines PDDL, cette méthode génère 7× moins de programmes et réduit drastiquement les coûts d'évaluation.

Génération de code Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Imperfect World Models are Exploitable

Étude formelle de l'exploitation de modèles du monde imparfaits en RL. Les auteurs définissent l'exploitation comme une divergence entre les préférences de politique du modèle et de l'environnement réel. Ils prouvent que l'exploitation est essentiellement inévitable sur de grands ensembles de politiques et établissent un lien théorique avec le reward hacking.

Reinforcement learning Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts

Red-Bandit est un framework de red-teaming qui adapte en temps réel des experts LoRA spécialisés dans différents styles d'attaque (manipulation, argot) via apprentissage par renforcement. Un algorithme de bandit multi-bras sélectionne dynamiquement l'expert optimal selon la sécurité des réponses du modèle cible. Résultats SOTA sur AdvBench avec prompts plus lisibles.

Sécurité IA Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.CL·19 mai

Prompt reinforcing for long-term planning of large language models

Méthode d'optimisation de prompts inspirée du reinforcement learning pour améliorer la planification long-terme des LLM en interactions multi-tours. Framework modifie uniquement l'instruction système via feedback itératif et experience replay. Gains significatifs sur text-to-SQL et dialogue orienté tâche, généralise across modèles.

Prompt engineering Reinforcement learning Agents IA

SIG

HYP

arXiv cs.CL·19 mai

Can LLMs Generate and Solve Linguistic Olympiad Puzzles?

Étude sur la capacité des LLM (dont OpenAI o1) à résoudre et générer des énigmes linguistiques de type Olympiades. Les modèles surpassent les humains sur la plupart des types d'énigmes, sauf celles sur les systèmes d'écriture et langues peu étudiées. La génération automatique d'énigmes pourrait élargir l'intérêt pour la linguistique.

GPT OpenAI Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution

LongAct est un benchmark pour évaluer la planification autonome d'agents dans des tâches ménagères longues durée spécifiées en langage naturel. HoloMind, un agent basé VLM avec planificateur hiérarchique DAG, mémoire spatiale multimodale et mémoire épisodique, atteint 59% de complétion d'objectifs avec GPT-5 et Qwen3-VL.

Benchmarks Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents

ClawForge est un framework de benchmark pour agents CLI testant la gestion d'état persistant et de conflits. 17 scénarios, 6 catégories d'aptitudes. Sept modèles frontier évalués : meilleur score 45,3%, écart maximal 17-90% selon inspection d'état préexistant.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

CarbonScaling: Extending Neural Scaling Laws for Carbon Footprint in Large Language Models

CarbonScaling est un framework analytique pour modéliser l'empreinte carbone de l'entraînement des LLM à l'échelle frontière. Il intègre les lois de scaling neural, les stratégies d'entraînement distribué, la modélisation du matériel et du carbone opérationnel/incorporé. Le code source est disponible sur GitHub.

Benchmarks Papers Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration - Learning from Cheap, Optimizing Expensive

AutoLLMResearch propose un framework agentic pour automatiser la configuration d'expériences LLM coûteuses. Le système apprend de petites expériences bon marché pour extrapoler vers des configurations prometteuses en haute-fidélité. LLMConfig-Gym fournit un environnement multi-fidélité avec >1M heures GPU d'expériences vérifiées.

Agents IA Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Causal Bias Detection in Generative Artificial Intelligence

Article arXiv proposant un cadre théorique pour détecter les biais causaux dans les modèles génératifs IA. Les auteurs formalisent la notion de fairness causale spécifique aux modèles génératifs (vs ML classique), dérivent des décompositions causales pour quantifier les impacts de biais selon différents chemins causaux, et démontrent leur méthodologie en analysant les biais de race et genre dans les LLM.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

VLATIM, un nouveau benchmark basé sur The Incredible Machine 2, évalue les capacités de raisonnement logique des Vision-Language Models dans des jeux de puzzle point-and-click. Les résultats montrent un écart significatif : les grands modèles propriétaires excellent en planification mais échouent en localisation visuelle précise, sans atteindre les capacités humaines.

Vision Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents

EnactToM est un benchmark d'IA évolutif contenant 300 tâches multi-agents en environnement 3D avec observabilité partielle. Il teste la capacité des agents à agir sur des croyances implicites (ToM fonctionnelle) plutôt que de répondre à des questions directes. Les 7 modèles frontière évalués obtiennent 0% sur les tâches difficiles, révélant des défaillances en coordination épistémique.

Multi-agents Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

ScaleLogic, un framework de raisonnement logique synthétique, montre que l'RL peut enseigner le raisonnement long-horizon aux LLMs. Le coût d'entraînement suit une loi de puissance avec la profondeur de preuve (T ∝ D^γ, R² > 0.99), l'exposant γ augmentant de 1.04 à 2.60 avec l'expressivité logique. Les modèles entraînés sur des logiques plus expressives transfèrent mieux (+10.66 points sur benchmarks).

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

HAAS: A Policy-Aware Framework for Adaptive Task Allocation Between Humans and Artificial Intelligence Systems

HAAS est un framework pour l'allocation adaptative de tâches entre humains et systèmes IA en ingénierie logicielle et fabrication. Il combine un système expert basé sur des règles de gouvernance avec un apprentissage par bandit contextuel. Les résultats montrent que la gouvernance n'est pas binaire mais un paramètre ajustable : une gouvernance modérée améliore performance et réduit la fatigue en fabrication.

Agents IA Multi-agents Reinforcement learning

SIG

HYP

arXiv cs.CL·19 mai

Mixture-of-Experts Can Surpass Dense LLMs Under Strictly Equal Resource

Une étude arXiv montre que les modèles Mixture-of-Experts (MoE) peuvent surpasser les architectures denses sous contraintes de ressources égales (paramètres, compute, données). Les chercheurs identifient une région d'activation optimale cohérente entre tailles de modèles. Validation sur ~200 modèles 2B et 50 modèles 7B (50 trillions de tokens).

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

MolClaw: An Autonomous Agent with Hierarchical Skills for Drug Molecule Evaluation, Screening, and Optimization

MolClaw est un agent autonome avec architecture hiérarchique à 3 niveaux (70 compétences) pour l'évaluation, le criblage et l'optimisation de molécules pharmaceutiques. Il intègre 30+ ressources spécialisées et atteint des performances SOTA sur MolBench, un benchmark de 8 à 50+ appels d'outils séquentiels. Les gains proviennent principalement de l'orchestration de workflows structurés.

Agents IA Multi-agents Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms

CheeseBench évalue 6 LLMs open-weight (3B-72B) sur 9 paradigmes de neurosciences comportementales (labyrinthe d'eau de Morris, T-maze, etc.). Qwen2.5-VL-7B atteint 52,6% de succès en ASCII vs 32,1% aléatoire et 78,9% pour les rongeurs. Scaling >7B donne des rendements décroissants; l'historique long et chain-of-thought dégradent les performances.

Benchmarks Raisonnement Vision

SIG

HYP

arXiv cs.AI·19 mai

General-purpose LLMs as Models of Human Driver Behavior: The Case of Simplified Merging

Étude comparant OpenAI o3 et Google Gemini 2.5 Pro comme modèles de comportement humain au volant dans un scénario de fusion simplifié. Les LLMs reproduisent le contrôle opérationnel intermittent et les dépendances tactiques, mais échouent à capturer les réponses aux indices de vélocité dynamique. Les ablations de prompts révèlent des biais inductifs non transférables entre modèles.

GPT Gemini Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

A Comparative Study in Surgical AI: Potential and Limitations of Data, Compute, and Scaling

Étude comparative sur l'IA chirurgicale : les modèles Vision-Language multi-milliards de paramètres échouent sur la détection d'instruments en neurochirurgie malgré l'entraînement extensif. Les expériences de scaling montrent des améliorations décroissantes. Les obstacles persistent across architectures, suggérant que données et compute seuls ne suffisent pas.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Étude montrant que l'oubli dans les LLM supprime l'information en surface seulement : les modèles retrouvent leur comportement original via un fine-tuning minimal. Les auteurs proposent un cadre d'analyse au niveau représentationnel (PCA, CKA, Fisher information) pour évaluer la véritable suppression de données et identifient quatre régimes d'oubli selon réversibilité et catastrophicité.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·19 mai

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

UniversalRAG étend la génération augmentée par récupération (RAG) à des corpus hétérogènes multi-modaux (texte, images, vidéos) avec granularités variables. Le framework propose un routage conscient de la modalité pour éviter le biais intra-modal et récupérer dynamiquement dans le corpus approprié. Validation sur 10 benchmarks multi-modaux.

RAG Vision Multi-agents

SIG

HYP

arXiv cs.AI·19 mai

Ontology-Constrained Neural Reasoning in Enterprise Agentic Systems: A Neurosymbolic Architecture for Domain-Grounded AI Agents

Architecture neurosymbolique avec ontologies (Role, Domain, Interaction) pour agents LLM en entreprise. Expérience contrôlée (1 800 runs, Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B) : agents ontologie-contraints surpassent agents non-grounded sur précision métrique et cohérence de rôle (p < .001). Gain 2x plus élevé sur domaines localisés (Vietnam) où couverture LLM est faible.

Agents IA Claude Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Interactive Benchmarks

Nouvelle approche d'évaluation Interactive Benchmarks pour tester le raisonnement des modèles via interaction multi-tour budgétée. Deux cadres : Interactive Proofs (logique, UI2Html, mathématiques avec feedback objectif) et Interactive Games (raisonnement stratégique). Révèle des lacunes importantes dans les capacités interactives actuelles.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Patients Speak, AI Listens: LLM-based Analysis of Online Reviews Uncovers Key Drivers for Urgent Care Satisfaction

Étude arXiv analysant 10 000+ avis Google Maps d'urgences (DMV, Floride) via GPT et prompt engineering. Les facteurs interpersonnels et l'efficacité opérationnelle sont les principaux déterminants de satisfaction, tandis que qualité technique, finances et équipements n'ont pas d'effet indépendant significatif. Densité de population seule corrèle avec les notes parmi les facteurs socioéconomiques.

GPT Prompt engineering Papers

SIG

HYP

arXiv cs.CL·19 mai

Supervising the search process produces reliable and generalizable information-seeking agents

RAG-Gym, un framework de supervision du processus de recherche plutôt que des réponses finales, améliore les agents de recherche autonomes. Re²Search++ utilise la supervision de processus et la réflexion de raisonnement pour générer des requêtes de meilleure qualité, avec gains significatifs sur les benchmarks multi-hop et meilleure généralisation hors-domaine.

RAG Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning

BioProAgent combine LLMs et machines à états finis pour planifier des expériences biologiques en laboratoire. Le système applique un workflow Design-Verify-Rectify et réduit la consommation de tokens de 6× via abstraction symbolique. Sur BioProBench, il atteint 95.6% de conformité physique vs 21.0% pour ReAct.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Online Algorithms with Unreliable Guidance

Nouvel article arXiv présentant OAG (Online Algorithms with Unreliable Guidance), un modèle pour l'apprentissage augmenté en ligne qui sépare composantes prédictives et algorithmiques. Introduit le compilateur DTB (drop-or-trust-blindly) convertissant algorithmes online standards en versions augmentées. Démontre garanties optimales sur matching bipartite, caching et tâches métriques uniformes.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

Query-Aware Learnable Graph Pooling Tokens as Prompt for Large Language Models

Nouvelle méthode LGPT (Learnable Graph Pooling Token) pour intégrer des graphes dans les LLM. Utilise des tokens apprenables pour représenter les graphes sans perte d'information. Amélioration de 4,13% sur GraphQA sans fine-tuning du LLM.

Prompt engineering RAG Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

The Alien Space of Science: Sampling Coherent but Cognitively Unavailable Research Directions

Un framework utilise des modèles de langage pour identifier des directions de recherche « alien » — cohérentes avec la littérature existante mais improbables sous la distribution actuelle des chercheurs. Sur 16 068 papiers IA/NLP, la méthode explore 3,5-7× plus d'espace conceptuel que les baselines tout en maintenant la cohérence scientifique.

Papers Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Les modèles de raisonnement long (LRM) génèrent des chaînes de pensée redondantes sans corrélation avec la justesse. L'article découvre que les LRM savent implicitement quand arrêter. SAGE (Self-Aware Guided Efficient Reasoning) exploite cette capacité via un nouveau paradigme d'échantillonnage, améliorant précision et efficacité sur benchmarks mathématiques.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Mitigating Conversational Inertia in Multi-Turn Agents

Les LLM montrent une « inertie conversationnelle » en scénarios multi-tours : ils imitent excessivement leurs réponses précédentes au lieu d'explorer. Les auteurs identifient ce biais via analyse d'attention et proposent Context Preference Learning pour favoriser les réponses à faible inertie. Validation sur 8 environnements d'agents.

Agents IA Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Supervised sparse auto-encoders for interpretable and compositional representations

Des auto-encodeurs creux supervisés améliorent l'interprétabilité des modèles en alignant les features apprises avec la sémantique humaine. Testés sur Stable Diffusion 3.5, ils permettent la généralisation compositionnelle et l'édition d'images par intervention au niveau des features.

Génération d'images Papers

SIG

HYP

arXiv cs.AI·19 mai

Enhancing Table Reasoning with Deterministic Table-State Rewards

TABROUGE, une métrique de récompense déterministe basée sur la plus longue sous-séquence commune, améliore le raisonnement tabulaire des LLM sans entraînement. RE-TAB, framework plug-and-play utilisant TABROUGE, gagne 26,7 pp sur six backbones et trois benchmarks, réduisant les échantillons de test-time scaling de 33%.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Hybrid Feature Combinations with CNN for Bangla Fake News Classification

Étude sur la détection de fausses nouvelles en bengali via CNN. Combinaison de features sémantiques, statistiques et au niveau caractère sur le dataset BanFakeNews-2.0. Les résultats montrent que fusionner plusieurs features améliore significativement le recall et le F1-score par rapport aux features isolées.

Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Responsible Agentic AI Requires Explicit Provenance

Un article arXiv argue que l'IA agentive ne peut être responsable sans provenance explicite traçable. Les auteurs formalisent cette provenance via une fonction d'attribution causale et un tenseur de responsabilité, montrent qu'elle est calculable et interventionnable en ligne, et identifient les lacunes de responsabilité actuelles dans les systèmes multi-agents.

Agents IA Multi-agents Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Mitigating Extrinsic Gender Bias for Bangla Classification Tasks

Étude sur le biais de genre extrinsèque dans les modèles de langage préentraînés en bengali. Construction de 4 datasets annotés manuellement (analyse de sentiment, détection de toxicité, discours haineux, sarcasme) avec perturbations de genre minimales. Proposition de RandSymKL, stratégie de débiaisage combinant divergence KL symétrique et cross-entropy. Code et datasets publics.

Benchmarks Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents

Étude révélant une vulnérabilité de sécurité dans les agents dialogues personnalisés : la mémoire à long terme biaise l'inférence d'intention et légitime des requêtes nuisibles. PS-Bench, un benchmark, montre que la personnalisation augmente les taux de succès d'attaque de 15,8 % à 243,7 % comparé aux baselines sans état. Une méthode de détection-réflexion légère est proposée pour réduire cette dégradation.

Sécurité IA Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Inference-Time Diversity in RL-Trained Lean Theorem Provers: A Diagnostic Study

Les prouveurs de théorèmes Lean entraînés par RL souffrent d'effondrement modal à l'inférence : doubler l'échantillonnage de k=32 à k=64 sur miniF2F-test avec DeepSeek-Prover-V1.5-RL ne résout zéro théorème supplémentaire (42/244). Une diversité structurelle fixe de 15 squelettes tactiques récupère +45% d'amélioration relative à k=16 (+12.3±4.2 théorèmes). Le phénomène est spécifique à RL et orthogonal au scaling.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Reinforcement Learning for LLM Post-Training: A Survey

Étude complète des méthodes de post-entraînement par renforcement pour LLM. Unifie RLHF (DPO), RLVR (PPO, GRPO) et SFT dans un cadre unique de policy gradient. Analyse technique détaillée des approches offline et itératives, avec notation standardisée pour comparaison directe.

Reinforcement learning Alignement Papers

SIG

HYP

arXiv cs.AI·19 mai

MirrorBench: A Benchmark to Evaluate Conversational User-Proxy Agents for Human-Likeness

MirrorBench est un framework de benchmark pour évaluer les agents proxy utilisateur dans les systèmes conversationnels. Il combine 6 métriques (MATTR, Yule's K, HD-D, GTEval, Pairwise Indistinguishability, Rubric-and-Reason) pour mesurer le réalisme des énoncés générés par des LLM simulant des utilisateurs, sur 4 datasets publics. Code open-source disponible.

Agents IA Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety

Article arXiv sur l'homogénéisation dans les LLM : les modèles reproduisent et amplifient les biais humains via l'effondrement de mode. Les auteurs proposent un cadre pour caractériser cette homogénéisation en termes de normalité (théorie queer) et introduisent la « xéno-reproduction » pour promouvoir la diversité. Expérience sur Claude 3.5 Haiku montrant les biais de genre.

Claude Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

FormuLLA: A Large Language Model Approach to Generating Novel 3D Printable Formulations

FormuLLA fine-tune des LLM (Llama2, GPT, Claude) sur 1400+ formulations FDM pour recommander des excipients pharmaceutiques et prédire les propriétés mécaniques des filaments. Llama2 surperforme ; les modèles plus petits souffrent d'oubli catastrophique même avec ce dataset.

Llama Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Vision-OPD propose une auto-distillation régionale-globale pour améliorer la compréhension visuelle fine des MLLMs. Le framework transfère la perception privilégiée du modèle sur des crops centrés sur les preuves vers sa politique pleine image, via minimisation de divergence KL token-level sur rollouts on-policy. Résultats compétitifs sur benchmarks de compréhension visuelle fine sans modèles externes ni labels.

Vision Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·19 mai

AgroCoT: A Chain-of-Thought Benchmark for Evaluating Reasoning in Vision-Language Models for Agriculture

AgroCoT est un benchmark VQA de 4 759 échantillons avec raisonnement Chain-of-Thought pour évaluer les capacités de raisonnement des Vision-Language Models en agriculture. L'évaluation de 30 VLMs (propriétaires et open-source) révèle des lacunes significatives en zéro-shot, soulignant l'importance du CoT pour les applications de précision agricole.

Vision Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

QuickLAP: Quick Language-Action Preference Learning for Semi-Autonomous Agents

QuickLAP fusionne retours physiques et linguistiques pour apprendre les fonctions de récompense de robots en temps réel. Le framework bayésien utilise des LLM pour extraire des masques d'attention et des préférences du langage libre, intégrés aux corrections physiques via une règle de mise à jour fermée. Réduction d'erreur de 70% vs baselines en simulation de conduite autonome.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

ALIGN: A Vision-Language Framework for High-Accuracy Accident Location Inference through Geo-Spatial Neural Reasoning

ALIGN est un framework vision-langage pour inférer les coordonnées précises d'accidents routiers à partir de rapports d'actualité en bengali et d'indices cartographiques. Utilisant une architecture agentique combinant OCR, LLM et vision-langage, le système réduit l'erreur de localisation de 10,9 km à 0,593 km en validation et 0,465 km sur données officielles de Dhaka.

Vision Agents IA Multi-agents

SIG

HYP

arXiv cs.AI·19 mai

WELD: The First Naturalistic Long-Period Small-Team Workplace Emotion Dataset for Ubiquitous Affective Computing

WELD est le premier dataset d'émotion en milieu professionnel naturel couvrant 30,1 mois (nov 2021 - mai 2024) avec 49 employés d'une entreprise chinoise. 733 780 vecteurs de probabilité d'expressions faciales 7-classes, validant trois phénomènes établis et révélant six régimes émotionnels asymétriques. Détecte un biais de modèle FER : surprédiction de « colère » sur visages asiatiques neutres (0,194 vs 0,05).

Vision Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

ProtoSiTex: Learning Semi-Interpretable Prototypes for Multi-label Text Classification

ProtoSiTex est un framework semi-interprétable pour la classification multi-label fine-grained de textes. Il combine une phase de découverte non-supervisée de prototypes avec une phase de classification supervisée utilisant une fonction de perte hiérarchique. Les expériences sur un nouveau benchmark d'avis hôtels et deux benchmarks publics montrent des performances SOTA avec explications fidèles.

Évaluations Papers

SIG

HYP

arXiv cs.AI·19 mai

CoLLM-NAS: Collaborative Large Language Models for Efficient Knowledge-Guided Neural Architecture Search

CoLLM-NAS combine deux LLMs complémentaires pour l'optimisation d'architectures neuronales : un Navigator LLM guide la recherche, un Generator LLM synthétise les candidats. Sur ImageNet et NAS-Bench-201, la méthode réduit les coûts de recherche de 4-10× tout en surpassant les méthodes NAS existantes.

Agents IA Multi-agents Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Position: AI Evaluations Should be Grounded on a Theory of Capability

Article de position argumentant que les évaluations de modèles IA doivent s'appuyer sur une théorie explicite de la capacité, plutôt que de traiter les scores comme des mesures directes. Les auteurs montrent empiriquement que les performances rapportées dépendent fortement des hypothèses de modélisation et proposent une « Evaluation Card » pour documenter les décisions sous-jacentes.

Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

An AI system to help scientists write expert-level empirical software

ERA, un système IA combinant LLM et Tree Search, génère automatiquement des logiciels scientifiques de niveau expert. Il a découvert 40 nouvelles méthodes en bioinformatique surpassant les meilleures méthodes humaines, généré 14 modèles épidémiologiques surpassant l'ensemble CDC pour les prévisions COVID-19, et produit des solutions expertes en analyse géospatiale et prédiction neuronale.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

EndoCogniAgent: Closed-Loop Agentic Reasoning with Self-Consistency Validation for Endoscopic Diagnosis

EndoCogniAgent est un framework d'agents fermés pour le diagnostic endoscopique itératif. Il couple l'acquisition d'évidences visuelles et le raisonnement multi-étapes via validation d'auto-cohérence (cohérence avec l'image et cohérence temporelle). Sur EndoAgentBench (6 132 QA de 11 datasets), le système atteint 85,23% en perception et 71,13% d'acceptabilité clinique.

Agents IA Raisonnement Vision

SIG

HYP

arXiv cs.CL·19 mai

Beyond Sentiment Classification: A Generative Framework for Emotion Intensity Evaluation in Text

Nouvelle approche pour évaluer l'intensité émotionnelle dans les textes via des modèles génératifs fine-tunés produisant des scores continus (0-100) au lieu de classifications discrètes. Démontre une meilleure généralisation et transfert vers sentiment/arousal, particulièrement utile en finance.

Papers Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

GenoMAS est un framework multi-agent basé sur LLM pour l'analyse d'expression génique. Six agents spécialisés orchestrés via protocoles de passage de messages typés combinent workflows structurés et adaptabilité autonome. Sur le benchmark GenoTEX : 89,13% de corrélation pour le prétraitement, F1 de 60,48% pour l'identification de gènes (+10,61% et +16,85% vs état de l'art).

Multi-agents Agents IA Génération de code

SIG

HYP

arXiv cs.AI·19 mai

CooT: Learning to Coordinate In-Context with Coordination Transformers

CooT est un framework multi-agent utilisant l'in-context learning pour adapter en temps réel un agent à des partenaires inconnus. Évalué sur Overcooked et Google Research Football, il surpasse les méthodes population-based, fine-tuning gradient et Meta-RL, sans mise à jour de paramètres.

Multi-agents Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents

Étude sur la latence des agents informatiques sur OSWorld : les appels LLM pour la planification et la réflexion dominent le temps total. Les 16 agents testés nécessitent 2,7-4,3× plus d'étapes que les trajectoires humaines optimales. Chaque étape successive prend 3× plus longtemps.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.CL·19 mai

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

AMARIS améliore l'apprentissage par renforcement basé sur des rubriques en intégrant une mémoire persistante d'évaluation. Le système accumule les diagnostics d'évaluation au fil du temps, les récupère via recherche statique et sémantique, et adapte les rubriques de récompense en continu. Expériences montrent gains de performance avec ~5% de surcharge temporelle.

Reinforcement learning Fine-tuning Évaluations

SIG

HYP

arXiv cs.AI·19 mai

A Survey on Foundation Models for Personalized Federated Intelligence

Enquête sur l'intégration des modèles fondamentaux (LLM, Gemini, Grok) avec l'apprentissage fédéré pour créer une « intelligence personnalisée artificielle » (API). Propose le paradigme PFI (personalized federated intelligence) combinant confidentialité, généralisation et personnalisation à la périphérie, adaptation fiable et raffinement par RAG.

Papers Fine-tuning RAG

SIG

HYP

arXiv cs.AI·19 mai

Automated Knowledge Component Generation for Interpretable Knowledge Tracing in Coding Problems

Pipeline automatisé basé LLM pour générer et étiqueter des composants de connaissances (KC) sur des problèmes de programmation. Le framework KCGen-KT utilise ces KC générés pour le knowledge tracing. Évaluation sur deux datasets réels : surpasse les méthodes existantes et les KC écrits par humains pour prédire les réponses futures des étudiants.

Llama Génération de code Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Prompt2Fingerprint: Plug-and-Play LLM Fingerprinting via Text-to-Weight Generation

Prompt2Fingerprint propose un framework pour l'empreinte digitale des LLM via génération de paramètres. Au lieu de fine-tuner chaque modèle séparément, un générateur spécialisé mappe des descriptions textuelles à des incréments de paramètres low-rank en un seul passage, éliminant les coûts de réentraînement.

Prompt engineering Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

A Machine With Human-Like Memory Systems

Article proposant un agent IA avec systèmes de mémoire sémantique et épisodique inspirés de la cognition humaine. Les auteurs créent l'environnement « The Room » compatible OpenAI Gym et démontrent que combiner les deux types de mémoire surpasse un seul système. Collaboration multi-agents améliore les performances.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

DashAttention propose une méthode d'attention hiérarchique sparse différentiable utilisant la transformation α-entmax adaptative pour sélectionner un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton offre accélération significative.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Vision-OPD propose une auto-distillation régionale-globale pour améliorer la compréhension visuelle fine des MLLMs. Le framework transfère la perception privilégiée du modèle sur des crops centrés sur les preuves vers sa politique pleine image, via minimisation de divergence KL entre distributions de tokens. Résultats compétitifs sur benchmarks de compréhension visuelle fine sans modèles externes ni labels.

Vision Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency

Étude de 38 modèles sur 8 900 références académiques : la qualité du rappel factuel suit une sigmoid combinant la taille du modèle et la fréquence du sujet dans les données d'entraînement. Ces deux variables expliquent 60% de la variance entre modèles denses, jusqu'à 74-94% au sein de familles individuelles.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Semantic Generative Tuning for Unified Multimodal Models

Semantic Generative Tuning (SGT) aligne la compréhension visuelle et la génération dans les modèles multimodaux unifiés en utilisant la segmentation d'image comme proxy génératif. Les tâches sémantiques de haut niveau améliorent la séparabilité linéaire des features et l'allocation d'attention visuo-textuelle, surpassant les approches découplées.

Vision Génération d'images Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

Reversa: A Reverse Documentation Engineering Framework for Converting Legacy Software into Operational Specifications for AI Agents

Reversa est un framework de rétro-ingénierie documentaire qui convertit les systèmes legacy en spécifications opérationnelles pour agents IA. Un pipeline multi-agents extrait les règles métier implicites, synthétise l'architecture et génère des spécifications traçables avec marquage de confiance. Étude de cas : migration ATM COBOL→Go produisant 517 claims, 10 gaps identifiés et 53 scénarios Gherkin.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·19 mai

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

COOPO est un algorithme d'apprentissage par renforcement hybride offline-online qui alterne entre entraînement offline régularisé par KL et fine-tuning online. Le retour cyclique à l'entraînement offline élimine l'oubli catastrophique et la dérive de distribution. Sur les benchmarks D4RL, COOPO réduit les interactions online tout en améliorant les performances finales.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Statistical Limits and Efficient Algorithms for Differentially Private Federated Learning

Étude des compromis entre précision, confidentialité différentielle et coût de communication en apprentissage fédéré. Propose FedHybrid et FedNewton, améliorations de FedAvg et FedSGD avec bornes supérieures d'erreur quadratique moyenne et bornes minimax. Validation sur régression logistique et réseaux de neurones (MNIST, CIFAR-10).

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Pocket Foundation Models: Distilling TFMs into CPU-Ready Gradient-Boosted Trees

Distillation de modèles fondamentaux tabulaires (TabICLv2) en arbres boostés (XGBoost/CatBoost) pour inférence CPU ultra-rapide. Résout le problème d'effondrement des soft targets via étiquetage out-of-fold stratifié. Sur 153 datasets : 0.882 macro-mean AUC (96.5% du teacher) en 1.9 ms CPU, speedup 38-860x. Pipeline open-source TabTune.

Fine-tuning Benchmarks Open source

SIG

HYP

arXiv cs.AI·19 mai

Post-Trained MoE Can Skip Half Experts via Self-Distillation

ZEDA, une méthode de self-distillation, convertit les modèles MoE post-entraînés en variantes dynamiques. Sur Qwen3-30B-A3B et GLM-4.7-Flash, elle réduit 50% des FLOPs experts avec perte de précision marginale et atteint 1.20× d'accélération d'inférence.

Qwen Fine-tuning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Data Presentation Over Architecture: Resampling Strategies for Credit Risk Prediction with Tabular Foundation Models

Étude comparative de modèles tabulaires (TFMs) vs classiques sur prédiction de défaut de crédit. Sur Home Credit et Lending Club, la stratégie de construction du contexte (sampling équilibré vs uniforme) explique plus de variance en AUC-ROC que le choix du modèle : +3-4 points AUC. Avec 5K-10K exemples équilibrés, les TFMs égalent les GBDTs classiques tout en améliorant le recall.

Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Position: Weight Space Should Be a First-Class Generative AI Modality

Les poids de réseaux de neurones forment une modalité de données à part entière. Cet article propose de traiter les checkpoints comme des données génératives : synthétiser des poids à la demande égale ou surpasse le fine-tuning tout en réduisant les coûts d'adaptation. Les modèles performants occupent des régions structurées de l'espace des poids (symétrie, modularité, sous-espaces partagés).

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

Stochastic Penalty-Barrier Methods for Constrained Machine Learning

Nouvelle méthode SPBM pour l'optimisation contrainte en deep learning. Combine penalty methods, barrier methods et dual averaging exponentiel pour gérer non-convexité et non-lissité. Démontre efficacité sur fairness, physics-informed networks et intégration de connaissances symboliques avec surcoût linéaire jusqu'à 10k contraintes.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

SAME: A Semantically-Aligned Music Autoencoder

SAME est un autoencoder pour musique stéréo et audio général atteignant une compression temporelle 4096× tout en préservant la qualité de reconstruction. L'architecture combine un backbone transformer, régularisations sémantiques, pertes de reconstruction sensibles à la phase et discriminateurs améliorés. Deux variantes (SAME-L et SAME-S) sont publiées en open-weights.

Open source Papers

SIG

HYP

arXiv cs.AI·19 mai

CATA: Continual Machine Unlearning via Conflict-Averse Task Arithmetic

CATA propose une méthode d'oubli machine continuel pour les modèles vision-langage (VLMs). Elle représente chaque demande d'oubli comme un vecteur de tâche et agrège les vecteurs historiques en supprimant les composantes conflictuelles, garantissant l'efficacité de l'oubli, la fidélité du modèle et la persistance contre la réémergence de connaissances.

Vision Sécurité IA Papers

SIG

HYP

arXiv cs.AI·19 mai

Not What You Asked For: Typographic Attacks in Household Robot Manipulation

Des chercheurs démontrent des attaques typographiques contre les robots manipulateurs domestiques utilisant CLIP. En plaçant des autocollants adversariaux, ils obtiennent 67,8% de taux de succès d'attaque sur le benchmark HomeRobot en simulation Habitat, causant des erreurs de saisie physique et de transport d'objets.

Vision Robotique Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Agentic Chunking and Bayesian De-chunking of AI Generated Fuzzy Cognitive Maps: A Model of the Thucydides Trap

Génération automatique de cartes cognitives floues (FCM) à partir de texte via agents LLM qui segmentent le texte en chunks chevauchants. Mélange convexe des FCM par chunk produit un graphe de connaissance FCM cyclique. Inférence bayésienne opérateur-niveau génère des FCM « de-chunkées ». Démonstration sur le modèle « Thucydides Trap » : 7/8 FCM prédisent un conflit armé. Gemini 3.1 utilisé comme agent.

Agents IA Gemini RAG

SIG

HYP

arXiv cs.AI·19 mai

Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation

RAT (Randomized Advantage Transformation) estime les gradients de politique naturelle régularisés via rétropropagation directe, sans construire explicitement la matrice de Fisher. La méthode utilise la formule de Woodbury et les itérations de Kaczmarz aléatoires sur mini-batches on-policy. Résultats comparables ou supérieurs aux méthodes de gradient naturel établies sur benchmarks de contrôle continu et visuel.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks

OverEager-Gen est un benchmark mesurant les actions hors-scope des agents de code autonomes sur des tâches bénignes. Sur Claude Code, retirer la déclaration de consentement augmente le taux d'actions overeager de 0% à 17.1%. L'étude teste 500 scénarios validés sur 4 produits (Claude Code, OpenHands, Codex CLI, Gemini CLI) et 6 modèles de base.

Agents IA Génération de code Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Estimating Item Difficulty with Large Language Models as Experts

Étude évaluant trois LLMs off-the-shelf pour estimer la difficulté d'items pédagogiques sans données de réponse. Sur 6 domaines de mathématiques primaires, les corrélations de Spearman montrent alignement modéré à fort avec les difficultés empiriques. Les comparaisons par paires surpassent les jugements absolus; l'ajout de probabilités de tokens et d'exemples few-shot améliore les résultats.

Prompt engineering Évaluations Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Key-Gram: Extensible World Knowledge for Embodied Manipulation

Key-Gram est un framework de mémoire conditionnelle qui sépare les connaissances linguistiques des raisonnements visuels pour le contrôle robotique. Il décompose les instructions en key-grams, récupère des priors linguistiques via lookup hashé O(1), et les injecte dans les couches cachées. Gains de 29.5% sur RoboTwin2.0, 35.8% sur LIBERO-Plus, 15.4% sur tâches réelles.

Robotique Vision Agents IA

SIG

HYP

arXiv cs.AI·19 mai

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

STT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLMs à détecter et s'adapter aux changements spatio-temporels. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL online.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Probing for Representation Manifolds in Superposition

Une méthode supervisée appelée Manifold Probe découvre les variétés de représentation en superposition dans les réseaux de neurones. Testée sur Llama 2-7b, elle identifie des variétés linéaires pour le temps et l'espace, et démontre un contrôle causal en modifiant les complétions du modèle sur les années de sortie de films et chansons.

Llama Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models

Les chercheurs identifient l'Entropy-Gradient Inversion, une corrélation négative entre l'entropie des tokens et les gradients de logits, comme signature géométrique des capacités de raisonnement des grands modèles. Ils proposent CorR-PO, une méthode d'optimisation par renforcement qui intègre cette signature dans la régularisation des récompenses, surpassant les baselines sur plusieurs benchmarks de raisonnement.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Beyond Morphology: Quantifying the Diagnostic Power of Color Features in Cancer Classification

Étude arXiv montrant que les caractéristiques de couleur seules (histogrammes RGB/HSV, moments statistiques) atteignent 89% de précision en classification binaire cancer/bénin en histopathologie, sans information morphologique. Les auteurs proposent ces features simples comme outil de pré-tri léger avant modèles deep learning complexes.

Vision Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

DBES: A Systematic Benchmark and Metric Suite for Evaluating Expert Specialization in Large-Scale MoEs

DBES est un cadre diagnostic pour évaluer la spécialisation des experts dans les modèles MoE (Mixture-of-Experts). Cinq métriques théoriques mesurent l'isolation de domaine et la spécialisation du routage. Tests sur Qwen, DeepSeek et GLM révèlent des paradigmes distincts. Post-training ciblé sur experts spécialisés améliore les performances de 66-94% avec 15% des ressources.

Benchmarks Qwen DeepSeek

SIG

HYP

arXiv cs.CL·19 mai

SafeLens: Deliberate and Efficient Video Guardrails with Fast-and-Slow Screening

SafeLens propose une architecture de modération vidéo à deux niveaux (fast-and-slow) pour réduire les coûts d'inférence. Le framework filtre le dataset SafeWatch à 2,4% via influence-guided filtering et ajoute des traces Chain-of-Thought. Il surpasse SafeWatch-8B, OmniGuard-7B, GPT-5.4 et Gemini-3.1-pro sur des benchmarks vidéo réels et générés par IA.

Vision Sécurité IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

GAMMA: Global Bit Allocation for Mixed-Precision Models under Arbitrary Budgets

GAMMA est un framework de quantization mixte pour LLMs qui alloue automatiquement la précision par module sans entraînement. Utilisant une reconstruction d'états cachés et la programmation entière, il atteint +12.99 points vs baselines fixes sur Llama/Qwen 8B-32B, et égale la qualité 3-bit à 2.5-bit moyen.

Llama Qwen Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Prompt2Fingerprint: Plug-and-Play LLM Fingerprinting via Text-to-Weight Generation

Prompt2Fingerprint propose un framework pour l'empreinte digitale des LLM via génération de paramètres. Au lieu de fine-tuner chaque modèle séparément, un générateur spécialisé mappe des descriptions textuelles à des incréments de paramètres bas-rang en un seul passage, éliminant le coût computationnel des méthodes existantes.

Prompt engineering Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Ensembling Tabular Foundation Models - A Diversity Ceiling And A Calibration Trap

Six modèles fondamentaux tabulaires modernes forment un ensemble hautement redondant (Q-statistic moyen 0.961). Sur 153 tâches OpenML, le meilleur ensemble (cascade stacking deux niveaux) gagne +0.18% de précision au coût de 253× le calcul. L'analyse Friedman-Nemenyi place trois ensembles et le meilleur modèle seul dans le même groupe d'équivalence. La sélection gloutonne est recommandée.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Modelling Customer Trajectories with Reinforcement Learning for Practical Retail Insights

Cadre de modélisation basé sur l'apprentissage par renforcement (RL) pour prédire les trajectoires clients en magasin. L'approche dépasse les heuristiques TSP/PNN (écart moyen 28% vs chemins optimaux) en capturant la rationalité limitée des clients. Validation sur données réelles : prédictions RL plus alignées avec comportements observés, estimations plus précises des achats impulsifs et densités de trafic.

Reinforcement learning Agents IA Business

SIG

HYP

arXiv cs.AI·19 mai

Building Reliable Arithmetic Multipliers Under NBTI Aging and Process Variations

Papier sur l'atténuation du vieillissement NBTI dans les multiplicateurs arithmétiques utilisés en IA. La technique exploite l'invariance de signe de la multiplication pour redistribuer le stress transistor via transformations en complément à 2. Intégrée aux systolic arrays, elle améliore la durée de vie avec surcoûts négligeables en surface et délai.

Papers Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·19 mai

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Des chercheurs entraînent KinGPT (25M paramètres) sur des données d'échecs et montrent que les performances élevées des modèles fine-tunés sur les échecs résultent surtout du pattern-matching, non de la compréhension réelle. LLM-Modulo, un framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de meilleur coup. Code, données et checkpoints open-sourcés.

Benchmarks Évaluations Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

Qumus: Realization of An Embodied AI Quantum Material Experimentalist

Qumus est le premier système d'IA incarnée pour la science expérimentale : un robot de laboratoire autonome capable de générer des hypothèses, planifier des protocoles et exécuter des expériences sur matériaux quantiques 2D. Il a créé pour la première fois du graphène par IA et fabriqué des transistors via empilement van der Waals, avec correction d'erreurs en boucle fermée.

Agents IA Multi-agents Robotique

SIG

HYP

arXiv cs.AI·19 mai

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

SkillsVote est un framework de gouvernance du cycle de vie des skills d'agents IA, depuis leur collecte jusqu'à leur évolution. Il profile un corpus open-source à l'échelle du million pour la qualité et la vérifiabilité, puis décompose les trajectoires en subtasks attribuées aux skills. Amélioration : +7.9pp sur Terminal-Bench 2.0 (GPT-5.2) et +2.6pp sur SWE-Bench Pro.

Agents IA Benchmarks Génération de code

SIG

HYP