mai 2026

3149 articles

Flowing with Confidence

Flow Matching with Confidence (FMwC) ajoute des scores de confiance par-échantillon aux modèles génératifs sans surcoût computationnel. En injectant du bruit multiplicatif dépendant de l'entrée et en propageant sa variance via l'ODE, la méthode permet le filtrage, l'édition de trajectoires et l'adaptation du stepping. Le score corrèle avec la divergence du champ de vélocité appris.

Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

ChartDesign: Towards LLM Designer of Data Visualization

ChartDesign fine-tune des LLMs (Phi3, Qwen3, InternVL2.5) via LoRA pour générer automatiquement des attributs de design graphique à partir de données tabulaires. Entraîné sur corpus curé (PewResearch, CharXiV), le système atteint 84% de précision sur test set vs 53% baseline, généralisant à domaines non vus.

Fine-tuning Vision Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Beyond Compliance: How AI Could Help Creative Writers by Refusing Them

Étude qualitative avec 22 écrivains créatifs sur les refus intentionnels d'IA dans l'assistance à l'écriture. Les chercheurs explorent comment les refusals (dire « non ») pourraient introduire une friction réfléchie plutôt qu'une conformité aveugle, en fonction du contexte (planification, rédaction, révision) et des préférences individuelles.

Prompt engineering Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Helping Customers in Distress: An LLM-powered Agent that Converses, Probes, and Routes

Une banque développe un agent IA conversationnel pour trier les cas de fraude, arnaque et litiges. L'agent utilise des LLM pour poser des questions ciblées et router les clients vers les bons services. Évaluation via jumeaux numériques synthétiques simulant des dialogues réalistes. Résultat : +30,6% de précision en classification avec conformité garantie.

Agents IA Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Actionable World Representation

WorldString est une architecture neurale qui modélise l'espace d'états des objets du monde réel à partir de nuages de points ou vidéos RGB-D. Conçue comme un jumeau numérique différentiable, elle constitue une brique fondamentale pour les modèles de monde physique intégrant apprentissage de politiques et dynamiques neurales.

Vision Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents

SkillGenBench est un benchmark pour évaluer les pipelines de génération de compétences pour agents LLM. Il couvre deux régimes : génération conditionnée par tâche et génération agnostique aux tâches, avec sources procédurales basées sur des dépôts ou documents. Les expériences révèlent une variation substantielle de performance et des modes d'échec distincts.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Learning Quantifiable Visual Explanations Without Ground-Truth

Nouvelle métrique pour évaluer les méthodes XAI sans ground-truth, basée sur perturbation continue d'entrées. Mesure suffisance et nécessité de l'information attribuée. Propose aussi une méthode XAI entraînable comme adapter sur modèles black-box, générant explications causales sans dégrader performance.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

AI for Auto-Research: Roadmap & User Guide

Étude complète des systèmes IA pour la recherche automatisée (avril 2026). Les LLM excellent dans les tâches structurées et outillées, mais restent fragiles pour les idées novatrices et le jugement scientifique. Les systèmes autonomes bout-à-bout n'atteignent pas encore les standards des grandes conférences. La collaboration humain-gouvernée demeure le paradigme le plus crédible.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference

KVDrive est un système de gestion multi-niveaux du cache KV (clés-valeurs) pour l'inférence LLM long-contexte, orchestrant placement en mémoire GPU/DRAM/SSD, ordonnancement du pipeline et coordination inter-niveaux. Le prototype atteint 1.74x de débit supérieur aux systèmes existants sans perte de précision.

Infrastructure Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Latent Action Reparameterization for Efficient Agent Inference

LAR (Latent Action Reparameterization) compresse l'espace d'actions des agents LLM en apprenant des actions latentes multi-étapes sémantiques. Cela réduit l'horizon de décision effectif et les coûts d'inférence tout en préservant l'expressivité. Sur plusieurs benchmarks, LAR diminue les tokens d'action et le temps d'inférence sans dégrader les taux de succès.

Agents IA Génération de code Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

When Outcome Looks Right But Discipline Fails: Trace-Based Evaluation Under Hidden Competitor State

Article proposant une évaluation basée sur les traces pour détecter quand un agent atteint ses KPI économiques mais viole les contraintes comportementales. Dans un cadre de tarification hôtelière avec état concurrent caché, les auteurs montrent que PPO seul échoue à préserver l'alignement avec le comportement de référence, tandis que le clonage comportemental et une RL avec historique préalable réussissent mieux.

Reinforcement learning Évaluations Agents IA

SIG

HYP

arXiv cs.AI·19 mai

TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

MM-ToolBench est un benchmark pour agents omni-modaux utilisant des outils en workflows réels. 100 tâches exécutables (service client, création intelligente), 27 serveurs MCP, 324 outils. Vérification multimodale en boucle fermée : les agents exécutent, inspectent et auto-corrigent. Claude Opus 4.6 atteint 32% de succès vs 94% humain.

Agents IA MCP Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment

AMR-SD propose une auto-distillation asymétrique avec réflexion méta pour améliorer l'attribution de crédit au niveau des tokens dans l'entraînement par renforcement des LLM. La méthode compresse les signaux de diagnostic en indices socratiques auto-générés et utilise un gain d'information causale avec seuil ReLU asymétrique pour moduler les avantages par token, évitant l'effondrement en fin d'entraînement.

Reinforcement learning Raisonnement Alignement

SIG

HYP

arXiv cs.AI·19 mai

OCCAM: Open-set Causal Concept explAnation and Ontology induction for black-box vision Models

OCCAM est un framework pour expliquer les décisions des classifieurs d'images en boîte noire via des concepts visuels causaux. Il découvre des concepts en mode open-set, les localise par segmentation guidée par texte, et mesure leur contribution causale par interventions au niveau objet. OCCAM agrège les preuves interventionnelles pour induire une ontologie structurée révélant dépendances et biais systémiques.

Vision Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Virtual Nodes Guided Dynamic Graph Neural Network for Brain Tumor Segmentation with Missing Modalities

Méthode de segmentation de tumeurs cérébrales par IRM multimodale utilisant des nœuds virtuels et des graphes dynamiques. Framework one-stage qui gère les modalités manquantes via une matrice d'adjacence adaptative et des matrices de poids hétérogènes. Résultats SOTA sur BRATS-2018/2020 avec modalités incomplètes.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi

QSTRBench est un benchmark évaluant la capacité des LLM à raisonner sur le calcul spatial et temporel qualitatif (QSTR). Il couvre 9 calculi (Point Algebra, Allen's Interval Algebra, RCC-5/8/22, etc.) avec composition tables, relations inverses et voisinages conceptuels. Les modèles testés surpassent le hasard mais aucun ne répond correctement à tous les cas. RCC-22 s'avère le plus difficile.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

SD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant conditionné sur les résultats passés guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.

Raisonnement Reinforcement learning RAG

SIG

HYP

arXiv cs.AI·19 mai

Scheduling That Speaks: An Interpretable Programmatic Reinforcement Learning Framework

ProRL est un framework de reinforcement learning programmatique pour l'optimisation combinatoire (job shop scheduling). Il génère des politiques interprétables sous forme de programmes lisibles via un DSL spécialisé (DSL-S), explorant l'espace des programmes par recherche locale et optimisation bayésienne. Surpasse les heuristiques classiques et baselines DRL avec peu d'épisodes d'entraînement.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Article arXiv sur les limites spatiales des MLLMs en environnements multi-agents. Les modèles souffrent d'une « illusion cartésienne » : ils manquent de compréhension 3D topologique ancrée. Les auteurs proposent un module « Epistemic Sensory Bottleneck » avec une chaîne de pensée basée sur des ancres pour améliorer l'inférence spatiale de second ordre (Theory of Mind). Baseline zéro-shot : 42% de précision.

Vision Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation

PPR-GDE, une méthode RL pour la génération ouverte, utilise des récompenses de préférence par paires et une diversité basée sur les groupes pour éviter l'effondrement de la diversité. Sans récompenses scalaires, elle préserve les évaluations subjectives et encourage la dispersion sémantique dans les groupes de réponses.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Scalable Environments Drive Generalizable Agents

Position paper proposant que la généralisation des agents IA nécessite l'expansion de la distribution des environnements (rule-sets exécutables), au-delà du scaling de trajectoires ou de tâches. Taxonomie unifiée distinguant trajectory scaling, task scaling et environment scaling. Contraste entre générateurs programmatiques et world models génératifs pour construire des environnements scalables.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Global Automation Atlas

Étude de 124 pays couvrant 99% du PIB mondial. Mesure task-based de l'exposition à l'automatisation : 3,3% en Afrique du Sud à 61,6% en Chine. Distingue automatisation labor-substituting vs labor-augmenting. IA plus présente dans substitution en pays pauvres, augmentation en pays riches. Femmes surexposées à la substitution.

Benchmarks Papers Régulation

SIG

HYP

arXiv cs.AI·19 mai

Generative AI and the Productivity Divide: Human-AI Complementarities in Education

Une expérience contrôlée randomisée montre que l'accès aux LLM augmente significativement la performance moyenne, mais les gains sont inégalement distribués. La compétence d'interaction IA (capacité à solliciter, filtrer et vérifier les outputs) prédit les bénéfices, pas le GPA. Une intervention de scaffolding (cartes conceptuelles) réduit la variance des résultats.

Reinforcement learning Évaluations Alignement

SIG

HYP

arXiv cs.AI·19 mai

POST: Prior-Observation Adversarial Learning of Spatio-Temporal Associations for Multivariate Time Series Anomaly Detection

POST propose un cadre d'apprentissage adversarial pour la détection d'anomalies dans les séries temporelles multivariées. Le modèle combine des réseaux de neurones graphiques avec une optimisation minimax sur les matrices d'adjacence pour résoudre la sur-généralisation spatiale. Évaluation sur benchmark public et synthétique avec localisation d'anomalies au niveau des canaux.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

TaskGround: Structured Executable Task Inference for Full-Scene Household Reasoning

TaskGround est un framework d'inférence de tâches pour agents domestiques opérant sur des scènes complètes. Il structure le raisonnement en trois étapes : grounding (extraction de contexte pertinent), inférence (structure exécutable), exécution (séquences d'actions). Évalué sur FullHome (400 tâches), il améliore les taux de succès et rend Qwen3.5-9B compétitif avec GPT-5 tout en réduisant les coûts de tokens de 18x.

Agents IA Raisonnement Robotique

SIG

HYP

arXiv cs.AI·19 mai

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

ConsumerSimBench, un benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro couvre seulement 47,8% des critères, révélant un écart majeur entre performance technique et intuition consommateur. Un pipeline multi-agent améliore MiMo-V2.5-Pro de 32,9% à 37,6%.

Benchmarks Évaluations Multi-agents

SIG

HYP

arXiv cs.AI·19 mai

Learning to Solve Compositional Geometry Routing Problems

Étude du Compositional Geometry Routing Problem (CGRP), une généralisation des problèmes de routage couvrant points, lignes, zones et géométries hybrides. Proposition de DiCon, un solveur avec attention différentielle et apprentissage contrastif, pour gérer l'asymétrie et l'espace d'actions élargi. Résultats montrant performance, polyvalence et généralisation supérieures.

Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

DocOS: Towards Proactive Document-Guided Actions in GUI Agents

DocOS est un benchmark évaluant les agents GUI capables de chercher proactivement de la documentation en ligne pour résoudre des tâches complexes. Les expériences montrent deux goulots : difficulté à localiser l'information pertinente et à traduire les instructions en actions GUI précises.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

New Insight of Variance reduce in Zero-Order Hard-Thresholding: Mitigating Gradient Error and Expansivity Contradictions

Nouvel algorithme de hard-thresholding d'ordre zéro avec réduction de variance pour les problèmes d'optimisation ℓ0. Résout la limitation du SZOHT sur le nombre de directions aléatoires en atténuant le conflit entre déviation des gradients ZO et expansivité de l'opérateur. Convergence améliorée validée sur régression ridge et attaques adversariales.

Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Unleashing LLMs in Bayesian Optimization: Preference-Guided Framework for Scientific Discovery

LGBO (LLM-Guided Bayesian Optimization) intègre le raisonnement sémantique des LLM dans chaque itération d'optimisation bayésienne via un mécanisme de préférence. Testé sur benchmarks en physique, chimie, biologie et science des matériaux, LGBO atteint 90% de la meilleure valeur en 6 itérations sur l'optimisation d'électrolytes Fe-Cr, contre 10+ pour BO standard.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Efficient Lookahead Encoding and Abstracted Width for Learning General Policies in Classical Planning

Nouvelle approche pour l'apprentissage de politiques généralisées en planification classique via des réseaux de neurones graphiques relationnels (R-GNNs). Les auteurs introduisent un encodage efficace de la recherche lookahead IW et une abstraction relationnelle pour améliorer l'évolutivité sur le benchmark IPC 2023. Les résultats surpassent le planificateur classique LAMA.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Ethical Hyper-Velocity (EHV): A Provably Deterministic Governance-Aware JIT Compiler Architecture for Agentic Systems

EHV est une architecture de compilateur JIT intégrant la vérification formelle des politiques de gouvernance IA directement dans le pipeline d'inférence. Via CRDTs et TEEs, elle atteint un déterminisme formel sub-milliseconde (SMFD) et réduit la latence de gouvernance de jours à O(1), éliminant le compromis entre vélocité et conformité.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Visualizing the Invisible: Generative Visual Grounding Empowers Universal EEG Understanding in MLLMs

GVG (Generative Visual Grounding) utilise un modèle EEG-to-image pour traduire l'activité cérébrale en images visuelles, contournant l'alignement texte seul. Testé sur GVG-X-Omni (170M params tunés) et GVG-Janus (trimodal), le framework améliore la compréhension EEG et la génération visuelle en exploitant les priors visuels des MLLMs.

Vision Multi-agents Embeddings

SIG

HYP

arXiv cs.AI·19 mai

LAST-RAG: Literature-Anchored Stochastic Trajectory Retrieval-Augmented Generation for Knowledge-Conditioned Degradation Model Selection

LAST-RAG propose une méthode de sélection de modèles de dégradation stochastique pour l'estimation de la durée de vie utile restante (RUL). La méthode combine trajectoires observées et contexte domaine via récupération d'evidence d'une banque locale, avec un mécanisme RCRUS pour éviter l'élimination prématurée. Expériences montrent surperformance vs baselines statistiques et prognostiques.

RAG Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning

LMAC utilise un LLM pour concevoir des protocoles de communication dans le MARL, permettant aux agents de reconstruire l'état global de manière uniforme. L'approche affine itérativement le protocole via un critère de conscience d'état explicite. Tests sur benchmarks MARL montrent gains de performance substantiels.

Multi-agents Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

DuIVRS-2: An LLM-based Interactive Voice Response System for Large-scale POI Attribute Acquisition

DuIVRS-2 est un système de réponse vocale interactif basé LLM déployé chez Baidu Maps pour l'acquisition d'attributs POI à grande échelle. Utilisant augmentation de données guidée par FSM, génération sélective et mécanisme Chain-of-Thought, le système traite 0,4 million d'appels/jour avec 83,9% de taux de succès et 130ms de latence.

Agents IA Raisonnement Voix

SIG

HYP

arXiv cs.AI·19 mai

PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization

PAIR est un modèle de récompense interne pour optimiser l'entraînement multi-étapes des LLM via GRPO. Il combine une sonde d'état caché (cohérence des croyances) et une tête attention légère pour générer des signaux de récompense denses à chaque étape, sans appels externes ni dépendances aux réponses correctes.

Reinforcement learning Raisonnement Agents IA

SIG

HYP

arXiv cs.AI·19 mai

KISS - Knowledge Infrastructure for Scientific Simulation: A Scaffolding for Agentic Earth Science

KISS introduit une infrastructure de connaissances (KI) pour permettre aux agents IA d'exécuter des simulations scientifiques complexes en Earth sciences. Sur 3 000 essais, les agents équipés de KI produisent des simulations valides à 84%, contre <40% sans KI. Un toolkit automatisé (KDT) a généré 119 KIs couvrant 14 domaines scientifiques, démontrant que l'expertise opérationnelle est structurable et extractible.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective

Étude arXiv sur l'efficacité du fine-tuning supervisé (SFT) pour les LLM. Les auteurs montrent que le SFT supprime principalement les interactions bruitées entre tokens, mais acquiert rarement de nouvelles interactions fiables. La phase de débruitage est très brève ; le fine-tuning prolongé introduit des interactions surapprenantes. Implications pour l'early stopping et l'entraînement des LLM.

Fine-tuning Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

Accelerating AI-Powered Research: The PuppyChatter Framework for Usable and Flexible Tooling

PuppyChatter est un framework logiciel conçu pour simplifier le développement d'applications IA basées sur LLM. Il combine la simplicité des SDK spécifiques aux fournisseurs avec l'indépendance vis-à-vis des vendeurs des frameworks d'abstraction, réduisant la complexité et les risques de verrouillage.

Outils Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Surface-Form Neural Sparse Retrieval: Robust Fuzzy Matching for Industrial Music Search

Amazon Music déploie un système de récupération neurale sparse robuste pour la recherche musicale à grande échelle. Le système gère les fautes de frappe, transpositions et variations phonétiques avec 91,4% de recall@10 sur 6M documents, surpassant les trigrammes (57,7%). Architecture inference-free avec tokenization subword granulaire (max 3 chars) et zéro latence en ligne.

RAG Embeddings Recherche vectorielle

SIG

HYP

arXiv cs.AI·19 mai

Divergence-Suppressing Couplings for Rectified Flow

Les auteurs identifient que l'enchevêtrement des trajectoires dans Rectified Flow provient de régions à divergence non-nulle dans le champ de vitesse appris. Ils proposent une correction hors-ligne qui atténue la composante divergente lors de la génération du couplage, sans surcoût au déploiement. Améliorations validées sur benchmarks 2D et génération d'images.

Génération d'images Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

EXG: Self-Evolving Agents with Experience Graphs

EXG est un framework de graphe d'expérience pour agents auto-évolutifs basés sur LLM. Il organise succès et échecs en représentation structurée et relationnelle, permettant la réutilisation d'expérience en temps réel entre tâches et hors ligne. Testé sur code generation et reasoning, EXG surpasse les baselines de réflexion et mémoire.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

EGI: A Multimodal Emotional AI Framework for Enhancing Scrum Master Real-time Self-Awareness

EGI est un framework multimodal pour monitorer les émotions inconscientes des Scrum Masters en temps réel. Le système combine transcription vocale (WER 10%), analyse prosodique, matching vocabulaire émotionnel et suggestions contextuelles via API multi-module open-source. Les tests montrent une amélioration significative de la conscience émotionnelle en réunions simulées.

Voix Agents IA Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Multimodal Cultural Heritage Knowledge Graph Extension with Language and Vision Models

Nouvelle approche pour étendre les graphes de connaissances (KG) du patrimoine culturel français. Les auteurs introduisent WJoconde, un KG multimodal intégrant texte et images, avec trois variantes et un benchmark pour la complétion de KG. Ils proposent un framework combinant LLM et Vision-Language Models pour extraire et valider automatiquement les données, améliorant la fiabilité du KG.

Vision RAG Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

SAPO améliore la recommandation générative en alignant l'optimisation par renforcement sur les étapes de raisonnement individuelles. Au lieu d'attribuer un seul avantage à la réponse complète, SAPO calcule un avantage relatif pour chaque étape de raisonnement et token SID, stabilisant l'entraînement et surpassant les baselines sur trois datasets réels.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents

Architecture mémoire dual-process pour agents scientifiques : découple fenêtre épisodique (10 messages) de consolidation sémantique (3 tokens/message). Évaluation sur 15,000 messages, 6 LLMs (OpenAI, Anthropic, Google) : maintient 70-85% précision à 10,000 messages avec 62% moins de tokens. Identifie trade-offs : Dual Process excelle requêtes numériques/temporelles, RAG pour récupération historique.

Agents IA Raisonnement RAG

SIG

HYP

arXiv cs.AI·19 mai

GraphMind: From Operational Traces to Self-Evolving Workflow Automation

GraphMind automatise les workflows opérationnels complexes en extrayant des graphes d'actions à partir de traces humaines, puis les exécute via un moteur multi-agent avec raisonnement LLM. Un mécanisme d'apprentissage par renforcement (ATR) optimise les chemins réussis. Déployé sur 4 services cloud, le système surpasse un baseline Trace-RAG avec un score 4.95/5 en révision experte.

Multi-agents RAG Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

NeuSymMS: A Hybrid Neuro-Symbolic Memory System for Persistent, Self-Curating LLM Agents

NeuSymMS est un système de mémoire hybride neuro-symbolique pour agents LLM. Il couple l'extraction neurale de faits depuis le dialogue avec un système expert CLIPS qui classe, déduplique et réconcilie les faits. Les connaissances sont stockées sous forme de triplets sujet-relation-valeur en base de données relationnelle, avec mémoire court/long terme et promotion basée sur l'accès.

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Memory-Guided Tree Search with Cross-Branch Knowledge Transfer for LLM Solver Synthesis

MEMOIR, un framework de recherche arborescente guidée par mémoire, synthétise automatiquement des solveurs pour l'optimisation combinatoire via LLM. Avec une hiérarchie mémoire à deux niveaux (locale et globale), il atteint 96,7% de validité sur 7 problèmes (scheduling, routing, packing), surpassant les baselines de 9,2 points et réduisant la variance inter-exécutions d'un ordre de magnitude.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Self-supervised Hierarchical Visual Reasoning with World Model

ResDreamer, un modèle monde hiérarchique auto-supervisé, reconstruit les résidus de chaque couche pour abstraire progressivement la dynamique visuelle. Entraîné sans connaissance de domaine, il atteint l'efficacité échantillon et paramètre de pointe en RL dans des environnements 3D adversariaux. Code disponible.

Reinforcement learning Raisonnement Vision

SIG

HYP

arXiv cs.AI·19 mai

Multi-Party Multi-Objective Optimization as Consensus Search: Runtime Analysis of Cross-Party Recombination

Étude théorique des algorithmes évolutionnaires multi-objectifs pour l'optimisation multi-parties (MPMOP). Sur le benchmark MP-JCG, une mutation guidée par les gains requiert Θ(n²) évaluations pour franchir une région critique, tandis que CPR-NSGA-II atteint O(n log n) via recombination cross-party. Analyse de runtime sur BPBOMST (problème d'arbre couvrant minimum multi-parties) avec bornes paramétrées.

Multi-agents Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Computational Challenges in Token Economics: Bridging Economic Theory and AI System Design

Article théorique sur les défis computationnels de l'économie des tokens dans les systèmes LLM. Introduit le concept de « Token Economics Trilemma » : tensions entre granularité de valorisation, exécution basse-latence et optimalité d'allocation. Identifie trois domaines techniques : comptabilité temps-réel, allocation de ressources contrainte, architecture système consciente de l'économie.

Infrastructure Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

D²Evo est un framework RL pour améliorer le raisonnement des LLM via l'auto-évolution. La méthode génère des échantillons d'entraînement de difficulté moyenne en minant des ancres adaptées aux capacités du modèle, puis optimise conjointement un Questioner et un Solver. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K exemples réels.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Algorithmic Cultivation: How Social Media Feeds Shape User Language

Étude longitudinale sur 235M posts de 4M utilisateurs Bluesky montrant que l'exposition à des feeds algorithmiques (News, Science, Blacksky) modifie mesurément le langage des utilisateurs : alignement sémantique, formalisation du registre, restructuration psycholinguistique. Le reposting est le prédicteur principal de convergence linguistique.

Papers Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

QQJ: Quantifying Qualitative Judgment for Scalable and Human-Aligned Evaluation of Generative AI

QQJ est un framework d'évaluation pour l'IA générative qui combine rubrics multi-dimensionnels conçus par experts et calibrage d'LLM évaluateurs sur un petit ensemble d'annotations de haute qualité. Testé sur génération de texte et images, QQJ montre meilleure alignement avec le jugement humain que les métriques automatiques traditionnelles et les évaluateurs LLM non structurés.

Évaluations Benchmarks Alignement

SIG

HYP

arXiv cs.AI·19 mai

CBT-Audio: Evaluating Audio Language Models for Patient-Side Distress Intensity Estimation in CBT Session Recordings

CBT-Audio est un dataset de 1,802 tours de parole issus de 96 enregistrements CBT publics, avec labels de détresse validés par experts. L'évaluation de 10 modèles audio open-source montre que l'audio améliore l'estimation de détresse par rapport au texte seul dans 8/10 familles de modèles, particulièrement quand contenu verbal et prosodie divergent.

Benchmarks Voix Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training

Learning-Zone Energy (LZE) est un framework de sélection de données en ligne pour l'entraînement RL des LLM. Testé sur Qwen 1.5B-8B sur GSM8K et MATH, il retient 40% des données par étape tout en égalant les baselines complètes, avec gains OOD de +45.9% sur AIME25 et réduction de 36% des FLOPs.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

BoLT: A Benchmark to Democratize Black-box Optimization Research for Expensive LLM Tasks

BoLT est un benchmark open-source pour l'optimisation black-box appliquée aux LLM. Il couvre hyperparamètres, mélanges de données et prompts via des modèles de substitution légers basés sur des milliers d'expériences réelles. Benchmark de méthodes Bayesian Optimization et BBO révèle des lacunes dans les approches existantes.

Benchmarks Open source Papers

SIG

HYP

arXiv cs.AI·19 mai

Reasoning Before Diagnosis: Physician-Inspired Structured Thinking for ECG Classification

CardioThink, un framework MLLM inspiré par la pratique médicale, structure le diagnostic ECG en étapes explicites (rythme, conduction, morphologie, impression) pour améliorer l'interprétabilité. L'optimisation Structured Set Policy Optimization (SSPO) aligne le raisonnement clinique sans annotations manuelles, surpassant les approches directes sur plusieurs benchmarks ECG.

Raisonnement Vision Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

CyberCorrect: A Cybernetic Framework for Closed-Loop Self-Correction in Large Language Models

CyberCorrect formalise l'auto-correction des LLM comme système de contrôle en boucle fermée. Un détecteur d'erreurs tri-modal (auto-cohérence, confiance verbalisée, vérification logique) et un contrôleur de correction type-dirigé améliorent la précision à 79,8% sur CyberCorrect-Bench (440 tâches), +6,2pp vs méthodes existantes, réduisant les sur-corrections de 41%.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.AI·19 mai

Response-free item difficulty modelling for multiple-choice items with fine-tuned transformers: Component-wise representation and multi-task learning

Modélisation de la difficulté d'items sans réponses pour questions à choix multiples via transformers fine-tunés. Approche end-to-end sur le texte des items éliminant l'ingénierie manuelle des features. Variante multi-tâche avec objectif auxiliaire QA améliore significativement les petits échantillons.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

A2RBench est un pipeline automatisé pour générer des benchmarks de raisonnement abstrait vérifiables formellement. Via vérification programmatique (cycle consistency), il élimine les hallucinations et crée des variations de tâches à grande échelle. Les évaluations montrent que les LLMs actuels obtiennent 39,8% vs 68,5% pour les humains, et peinent sur les tâches 3D complexes.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Is VLA Reasoning Faithful? Probing Safety of Chain-of-Causation

Étude systématique de la fidélité du raisonnement dans les modèles VLA (Vision-Language-Action) de conduite autonome. Analyse de 300 inférences Alpamayo-R1-10B sur 100 scénarios PhysicalAI-AV révèle : fidélité de raisonnement de 42,5%, 94 piétons manqués, fragilité de trajectoire de 97,7% sous perturbations visuelles, cohérence raisonnement-action de 48,3%. Propose une architecture de sécurité à quatre composants.

Vision Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

CAM-Bench: A Benchmark for Computational and Applied Mathematics in Lean

CAM-Bench est un benchmark Lean 4 de 1 000 problèmes de mathématiques computationnelles et appliquées (optimisation, algèbre linéaire numérique, analyse numérique). Les problèmes sont extraits de manuels avec contexte local reconstruit via pipeline de récupération de dépendances. Évaluation de LLMs et agents de formalisation révèle des défaillances sur les hypothèses locales et le contrôle long-horizon.

Benchmarks Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

CatalyticMLLM: A Graph-Text Multimodal Large Language Model for Catalytic Materials

QE-Catalytic-V2 est un modèle multimodal graph-texte unifié pour les matériaux catalytiques. Il intègre prédiction de propriétés et conception inverse dans un même espace de représentation, éliminant les décalages de distribution entre modèles découplés. Démontre des performances supérieures sur prédiction d'énergie et conception inverse.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.AI·19 mai

ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding

ChemVA, un framework pour améliorer la compréhension des diagrammes de réactions chimiques par les LLM. Combine détection multi-granularité des groupes fonctionnels et alignement sémantique pour activer le raisonnement chimique latent. Atteint 92% de précision de reconnaissance structurelle sur OCRD-Bench et +20 points de performance sur 9 LLM différents.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning

CAREBench est un benchmark évaluant la compréhension émotionnelle des LLMs via le raisonnement d'appraisal cognitif. Testé sur 6 modèles avec annotations complètes de chaînes inférentielles (perspectives première/troisième personne), il révèle que les modèles forts égalent les humains sur certaines tâches mais échouent sur le raisonnement d'appraisal et la reconnaissance d'émotions positives.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

From Imitation to Interaction: Mastering Game of Schnapsen with Shallow Reinforcement Learning

Des agents de réseaux de neurones peu profonds maîtrisent le jeu de cartes Schnapsen via apprentissage par renforcement. RLBot, entraîné par mises à jour Monte Carlo asynchrones, surpasse MLPBot (imitation supervisée) et bat significativement RdeepBot, un baseline basé sur la recherche. La combinaison d'une fonction de valeur apprise avec une recherche plus profonde en jeu améliore les performances.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

MADP: A Multi-Agent Pipeline for Sustainable Document Processing with Human-in-the-Loop

MADP est une architecture multi-agent pour l'automatisation des documents en entreprise, combinant classification deep learning et extraction LLM avec validation humaine. Déployée sur 955 documents réels, elle atteint 97% d'automatisation complète et réduit les besoins en FTE de 70%. Accuracy de 98.5% avec supervision humaine; réduction de 69% des émissions CO2 vs traitement manuel.

Multi-agents Agents IA Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Dynamics of collective creativity in AI art competitions

Étude de 130 882 images issues de 368 « remix parties » sur Artbreeder (13 mois). Les images convergeaient vers des attracteurs thématiques communs (steampunk, architecture alien) en devenant plus simples. Paradoxe : les parents novateurs produisaient des enfants plus complexes et appréciés, mais les utilisateurs préféraient remixer des images moins novatrices.

Génération d'images Papers Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Latent Heuristic Search: Continuous Optimization for Automated Algorithm Design

Méthode de découverte automatique d'heuristiques via optimisation continue dans un espace latent. Un encodeur mappe des programmes discrets en embeddings continus, un modèle de substitution différentiable prédit les performances, et un flux de normalisation invertible régularise la trajectoire d'optimisation. Évaluation sur TSP, CVRP, KSP et Online Bin Packing avec résultats compétitifs aux baselines évolutionnaires.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

ECC, un algorithme de clustering de requêtes, calibre les embeddings sémantiques via comparaisons de modèles pour aligner la sémantique de surface avec les capacités latentes des LLM. Utilisant un modèle Bradley-Terry, il améliore le classement des capacités de 17,64 points vs baselines humaines et 18,02 points vs embeddings, avec applications au routage de requêtes.

Évaluations Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Scientific Logicality Enriched Methodology for LLM Reasoning: A Practice in Physics

Étude systématique de la logicité dans le raisonnement scientifique des LLM. Les auteurs développent une méthodologie enrichie incluant des critères d'évaluation et des méthodes d'échantillonnage pour l'entraînement guidé par la logicité. Expériences sur trois LLM différents avec données de physique extraites de littérature académique. Code disponible.

Raisonnement Fine-tuning Papers

SIG

HYP

arXiv cs.AI·19 mai

RAGA: Reading-And-Graph-building-Agent for Autonomous Knowledge Graph Construction and Retrieval-Augmented Generation

RAGA est un agent autonome basé LLM pour construire des graphes de connaissances et augmenter la génération. Il combine opérations CRUD, une boucle ReAct avec contrainte Read-Search-Verify-Construct, et synchronisation KG-vecteur pour récupération hybride. Tests sur QASPER montrent gains en qualité de réponse et preuve.

Agents IA RAG Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Effort as Ceiling, Not Dial: Reasoning Budget Does Not Modulate Cognitive Cost Alignment Between Humans and Large Reasoning Models

Les grands modèles de raisonnement (LRM) génèrent des traces alignées avec les temps de réaction humains, mais cet alignement persiste indépendamment du budget de raisonnement en inférence. Étude sur GPT-OSS-20B et GPT-OSS-120B : trois niveaux d'effort, six tâches cognitives. L'allocation de tokens suit les patterns de difficulté humains et reflète une structure figée à l'entraînement, non modulée en temps réel.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

The Alpha Illusion: Reported Alpha from LLM Trading Agents Should Not Be Treated as Deployment Evidence

Étude critique sur les agents de trading basés sur LLM (FinCon, FinMem, TradingAgents, FinAgent, QuantAgent, FLAG-Trader). Les Sharpe ratios rapportés ne constituent pas une preuve de déploiement viable : contamination temporelle, frictions non modélisées et calibration prédictive insuffisante invalident les réclamations. Propose protocole P1-P6 et architecture modulaire avec LLM comme interface d'audit.

Agents IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Towards Human-Level Book-Writing Capability

Chercheurs présentent un framework pour l'écriture créative à l'échelle du livre. À partir de romans du domaine public, ils construisent un échafaudage multi-résolution (résumé → chapitres → scènes → texte complet) et entraînent un modèle long-contexte sur des trajectoires prompt-to-book. L'objectif : générer de la prose littéraire humaine plutôt que du texte générique assisté.

Fine-tuning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

PersonaArena: Dynamic Simulation for Evaluating and Enhancing Persona-Level Role-Playing in Large Language Models

PersonaArena est un framework de simulation dynamique pour évaluer et améliorer le jeu de rôle au niveau persona dans les LLM. Il utilise un corpus filtré de contenu social généré par les utilisateurs, crée une banque de personas nuancée, et simule des interactions multi-tours en environnements sociaux. Un juge multi-agent débatteur assure une évaluation holistique.

Agents IA Multi-agents Évaluations

SIG

HYP

arXiv cs.AI·19 mai

DriveSafe: A Framework for Risk Detection and Safety Suggestions in Driving Scenarios

DriveSafe est un framework pour la détection de risques dans les scénarios de conduite autonome. Il génère des descriptions spatiales enrichies (mouvement, profondeur) puis évalue les risques via un adaptateur fine-tuné sur des paires caption-risque. Résultats SOTA sur le benchmark DRAMA.

Vision Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Prefix-Adaptive Block Diffusion for Efficient Document Recognition

PA-BDM améliore les Block Diffusion Models pour la reconnaissance documentaire en remplaçant le débruitage bidirectionnel par un débruitage causal préfixe-suffixe. Avec perte structurelle contrôlée par confiance et engagement progressif du préfixe, le modèle 3B atteint +71,6% de débit inférence vs MinerU-Diffusion 2.5B.

Papers Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Reliability and Effectiveness of Autonomous AI Agents in Supply Chain Management

Étude des agents IA autonomes dans les chaînes d'approvisionnement multi-échelons via le Beer Game du MIT. Les modèles de raisonnement réduisent les coûts de 67% vs équipes humaines, mais révèlent un « effet bullwhip agent » : amplification de l'instabilité décisionnelle entre échelons. Un cadre GRPO de post-entraînement par renforcement sur récompenses système améliore la fiabilité.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Brain Vascular Age Prediction Using Cerebral Blood Flow Velocity and Machine Learning Algorithms

Étude utilisant la vélocimétrie Doppler transcrânienne (TCD) et l'algorithme MOCAIP pour prédire l'âge vasculaire cérébral. 168 sujets sains et 277 malades (AVC, Alzheimer, MCI) analysés. Le modèle prédit un vieillissement accéléré chez les patients malades, avec une surestimation de 3,69 ans chez les sains.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

How do Humans Process AI-generated Hallucination Contents: a Neuroimaging Study

Étude EEG sur 27 participants analysant les mécanismes neuraux de détection des hallucinations IA. Les chercheurs ont enregistré l'activité cérébrale lors de vérification de descriptions d'images générées par un MLLM. Les résultats montrent que les hallucinations mal jugées ne déclenchent pas le processus standard de vérification de faits.

Vision Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

From Static Risk to Dynamic Trajectories: Toward World-Model-Inspired Clinical Prediction

Framework unifié pour la modélisation de trajectoires de maladie en IA clinique, intégrant prédiction factuelle, estimation contrefactuelle et évaluation de politiques. Aborde les biais de traitement, les confondeurs variables dans le temps et les biais d'observation pour transformer les prédictions statiques en estimations dynamiques sensibles au traitement.

Raisonnement Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

NGM: A Plug-and-Play Training-Free Memory Module for LLMs

NGM est un module mémoire sans entraînement pour LLM qui utilise un encodeur N-gram causal et un injecteur mémoire à porte cosinus. Testé sur Qwen3 (0.6B-14B), il améliore les performances de 0.5-1.2 points en moyenne, avec gains notables en génération de code (+3.0 LiveCodeBench) et tâches knowledge-intensive (+3.03 GPQA).

Qwen Génération de code Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Reasoning Can Be Restored by Correcting a Few Decision Tokens

Les modèles de raisonnement surpassent les LLM de base sur les benchmarks complexes. Une étude révèle que l'avantage provient d'un petit ensemble de tokens décisionnels précoces (~8% sur Qwen3-0.6B), concentrés en phase de planification. Une intervention sélective du modèle de raisonnement sur ces tokens critiques restaure les performances sans surcoût computationnel majeur.

Raisonnement Benchmarks Qwen

SIG

HYP

arXiv cs.AI·19 mai

Learning to Learn from Multimodal Experience

Nouvelle approche pour l'apprentissage par expérience multimodale : au lieu de schémas mémoire prédéfinis, les agents apprennent à construire et organiser dynamiquement leur mémoire selon les tâches et l'historique d'interaction. Améliore performance et généralisation sur tâches multimodales.

Agents IA Raisonnement Vision

SIG

HYP

arXiv cs.AI·19 mai

Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models

HT-GRPO, une méthode d'apprentissage par renforcement hiérarchique pour les modèles de diffusion multi-modaux, organise l'optimisation en trois étapes (global, structure, raffinement). Elle résout le problème des séquences de démasquage multiples et attribue des récompenses différenciées selon l'importance des tokens. Tests sur MMaDA et Lumina-DiMOO montrent des gains sur GenEval et DPG.

Reinforcement learning Génération d'images Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Voices in the Loop: Mapping Participatory AI

Étude d'un atlas interactif open-source mappant 200+ initiatives d'IA participative. Protocole reproductible pour découverte, vérification et harmonisation de cas. Résultats : initiatives concentrées dans peu de pays, participation surtout en formulation de problèmes et évaluation, rarement en développement de modèles.

Sécurité IA Régulation

SIG

HYP

arXiv cs.AI·19 mai

The Lattice Representation Hypothesis of Large Language Models

Une hypothèse propose que les LLM encodent des treillis de concepts (lattices) dans leur géométrie d'embeddings. Le cadre unifie la Linear Representation Hypothesis avec l'Analyse Formelle de Concepts (FCA), montrant que les directions d'attributs linéaires induisent des treillis via intersections d'hyperplans. Expériences sur WordNet valident que les embeddings capturent les structures logiques et hiérarchiques.

Raisonnement Papers Embeddings

SIG

HYP

arXiv cs.AI·19 mai

GRID: Graph Representation of Intelligence Data for Security Text Knowledge Graph Construction

GRID est un framework end-to-end pour construire des graphes de connaissances de sécurité à partir d'articles de cyber threat intelligence. Utilisant Qwen3-4B-Instruct, il combine extraction de graphes, révision de texte et une banque de tâches (questions multi-choix + regex) pour générer des récompenses stables. Sur 249 articles CTI, le modèle Task-bank atteint 84,62% précision, 64,91% rappel et 68,53% F1 moyen.

Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

VGGT-CD: Training-Free Robust Registration for 3D Change Detection

VGGT-CD est un pipeline sans entraînement pour la détection de changements 3D à partir d'images multi-vues. Il découple l'enregistrement inter-temporel de l'interférence des changements dynamiques via une inférence conjointe d'images-clés et une purification des reconstructions denses. Sur le benchmark World Across Time, il réduit l'erreur de trajectoire de 44% en extérieur et 59% en intérieur, 6× plus rapide.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Pedestrian-Aware LLM-Driven Behavioral Planning for Autonomous Vehicles

Framework de planification comportementale pour véhicules autonomes utilisant un LLM pour anticiper le comportement des piétons. Évalué sur SUMO : 68% de succès sans entraînement (vs 17.7% pour RL), 96% avec mémoire épisodique. Décisions interprétables et transfert de comportements entre scénarios.

Raisonnement Reinforcement learning Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Sustainable Intelligence for the Wild: Democratizing Ecological Monitoring via Knowledge-Adaptive Edge Expert Agents

Système d'IA embarquée pour le monitoring écologique en zones reculées. Architecture séparant perception visuelle et raisonnement via base de connaissances dynamique, éliminant besoin de cloud et retraitement continu. Collaboration avec biologistes et communautés autochtones pour IA éthique.

Agents IA Vision RAG

SIG

HYP

arXiv cs.AI·19 mai

Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data

Méthode post-hoc d'alignement multimodal utilisant des représentations relatives au niveau token pour appareiller encodeurs pré-entraînés avec peu de données. Apprentissage d'ancres learnable dans chaque espace modal pour induire des patterns de similarité cross-modal cohérents. Surpasse les méthodes existantes en classification zero-shot, retrieval cross-modal et segmentation zero-shot.

Embeddings Vision RAG

SIG

HYP

arXiv cs.AI·19 mai

How Many Visual Tokens Do Multimodal Language Models Need? Scaling Visual Token Pruning with F^3A

F³A est un routeur sans entraînement pour l'élagage des tokens visuels dans les modèles vision-langage. Il sélectionne les tokens visuels pertinents via des indices conditionnés par la question, sans passe LLM supplémentaire, réduisant les coûts d'inférence tout en préservant la performance.

Vision Raisonnement Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Data-driven and distributed governance of building facilities management using decentralized autonomous organization, digital twin, and large language models

Framework de gestion décentralisée des bâtiments combinant DAOs, jumeaux numériques, LLMs et blockchain. Système évalué sur l'efficacité des coûts, la scalabilité, la sécurité et l'usabilité via SUS et entretiens d'experts.

Agents IA Raisonnement Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Harnessing LLM Agents with Skill Programs

HASP transforme les compétences textuelles d'agents LLM en Program Functions exécutables qui interviennent activement dans la boucle d'agent lors d'états critiques. Le framework améliore les performances de 25% sur web-search (vs ReAct) et 30.4% sur math/coding (vs Search-R1) via intervention en inférence, post-training ou auto-amélioration.

Agents IA Raisonnement Génération de code

SIG

HYP

arXiv cs.CL·19 mai

Multilingual jailbreaking of LLMs using low-resource languages

Étude arXiv montrant que les conversations multi-tours en langues africaines peu dotées (afrikaans, kiswahili, isiXhosa, isiZulu) contournent les garde-fous de sécurité des LLM commerciaux. Tests sur ChatGPT, Claude, DeepSeek, Gemini et Grok révèlent des taux de jailbreak de 52,7% à 83,6% selon le modèle. La qualité de traduction est le facteur critique.

Sécurité IA Alignement Benchmarks

SIG

HYP