Archives

mai 2026

3148 articles

arXiv cs.AI·

Generating Pretraining Tokens from Organic Data for Data-Bound Scaling

SynPro, un framework de génération de données synthétiques, aide les LLM à mieux apprendre à partir de corpus organiques limités via rephrasage et reformatage. Optimisé par RL, il déverrouille 3.7-5.2x plus de tokens effectifs que la répétition simple sur des modèles de 400M et 1.1B, surpassant même l'oracle sans contrainte de données à l'échelle 1.1B.

Reinforcement learningBenchmarksOpen source
SIG
82
HYP
25
arXiv cs.AI·

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

HINT-SD propose une auto-distillation ciblée pour entraîner des agents LLM sur des horizons longs. La méthode utilise l'historique complet de trajectoire pour identifier les actions pertinentes aux échecs et applique la distillation conditionnée par feedback uniquement sur ces segments. Sur BFCL v3 et AppWorld, elle améliore les baselines de 18,80% tout en réduisant le temps par étape d'entraînement de 2,26×.

Agents IAReinforcement learningRaisonnement
SIG
75
HYP
15
arXiv cs.AI·

Multi-agent AI systems outperform human teams in creativity

Des équipes multi-agents basées sur LLM surpassent les équipes humaines en créativité (Cohen's d=1.50) sur 4 541 idées d'IA contre 341 idées humaines sur six tâches. L'avantage provient de la nouveauté tout en maintenant l'utilité. Les équipes LLM bénéficient d'une exploration efficace (large dispersion sémantique, chemins courts), tandis que les humains privilégient la cohérence conversationnelle locale.

Multi-agentsRaisonnementBenchmarks
SIG
75
HYP
45
arXiv cs.AI·

AdaptiveLoad: Towards Efficient Video Diffusion Transformer Training

AdaptiveLoad optimise l'entraînement des Transformers de diffusion vidéo (DiT, MMDiT) en résolvant le déséquilibre de charge causé par la complexité quadratique de l'attention. Deux composants : équilibrage adaptatif dual et kernel CUDA LayerNorm-Modulate fusionné. Sur Wan 2.1 : déséquilibre computationnel réduit de 39% à 18,9%, utilisation VRAM +22,7%, débit +27,2%.

Génération de vidéosInfrastructureBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

BacktestBench est le premier benchmark large-scale pour le backtesting quantitatif automatisé, contenant 18 246 paires QA annotées à partir de 6 millions de données de marché réelles. AutoBacktest, un système multi-agent, traduit les stratégies en langage naturel en backtests reproductibles via coordination Summarizer-Retriever-Coder. Évaluation sur 23 LLMs identifie les facteurs clés de performance.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.AI·

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

Babel est une méthode de jailbreak black-box qui exploite une vulnérabilité dans l'alignement de sécurité des LLM : la sécurité repose sur peu de têtes d'attention éparses, laissant l'espace représentationnel faiblement surveillé. Via obfuscation optimisée et raffinement itératif, Babel atteint 82,67% de succès sur GPT-4o et 78,33% sur Claude-3-5-haiku en ~40 requêtes.

Sécurité IAAlignementGPT
SIG
75
HYP
35
arXiv cs.AI·

SAFE-SVD: Sensitivity-Aware Fidelity-Enforcing SVD for Physics Foundation Models

SAFE-SVD propose une méthode de compression pour les modèles fondamentaux de physique (PFM) qui préserve la fidélité physique. La technique modélise la sensibilité des couches dans l'espace fonctionnel de sortie, évitant la dégradation sévère des performances causée par les méthodes conventionnelles. Les expériences montrent des gains substantiels en ratios de compression tout en maintenant la précision.

PapersBenchmarksInfrastructure
SIG
72
HYP
28
arXiv cs.AI·

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

ESI-Bench est un benchmark pour l'intelligence spatiale incarnée couvrant 10 catégories de tâches sur OmniGibson. Les agents doivent combiner perception, locomotion et manipulation pour accumuler activement des preuves. Les expériences montrent que l'exploration active surpasse les approches passives, mais les défaillances proviennent surtout de mauvais choix d'action plutôt que de perception faible.

VisionRobotiqueBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders

Étude sur les biais de popularité dans les systèmes de recommandation génératifs (GRs). Les auteurs identifient que ce biais provient d'une faille d'optimisation au niveau des tokens et d'une tokenization d'items non différenciée. Ils proposent Ghost, un GR avec optimisation asymétrique unlikelihood et tokenization skeleton-founded, validé sur 3 datasets.

PapersBenchmarksAlignement
SIG
72
HYP
18
arXiv cs.AI·

AgentWall: A Runtime Safety Layer for Local AI Agents

AgentWall est une couche de sécurité runtime pour agents IA locaux. Elle intercepte les actions proposées par l'agent avant exécution, les évalue contre une politique déclarative explicite, requiert approbation humaine pour opérations sensibles, et enregistre un audit complet. Implémentée comme proxy MCP et plugin OpenClaw, elle atteint 92,9% de précision d'application de politique avec surcharge sub-milliseconde.

Agents IASécurité IAMCP
SIG
78
HYP
25
arXiv cs.AI·

EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective

EvoMemBench est un benchmark unifié évaluant la mémoire des agents LLM selon deux axes : portée (intra-épisode vs. inter-épisode) et contenu (orienté connaissance vs. exécution). Comparaison de 15 méthodes de mémoire : les baselines long-contexte restent compétitives, les méthodes par récupération dominent pour les tâches intensives en connaissances, les méthodes procédurales excèlent pour l'exécution.

Agents IABenchmarksRaisonnement
SIG
78
HYP
18
arXiv cs.AI·

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning

AMARIS introduit un système de mémoire persistante pour améliorer les rubriques d'évaluation dans l'entraînement par RL des LLMs. Le système accumule les diagnostics d'évaluation au fil du temps, utilise la récupération statique et dynamique pour contextualiser les modifications de rubriques, et ajoute ~5% de surcharge temporelle. Les expériences montrent des gains constants sur les domaines fermés et ouverts.

Reinforcement learningFine-tuningÉvaluations
SIG
75
HYP
15
arXiv cs.AI·

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

LongMINT est un benchmark évaluant la capacité des agents à gérer la mémoire dans des contextes longs (jusqu'à 1,8M tokens) avec interférences multiples. 15.6k paires QA sur 4 domaines (suivi d'état, dialogue, révisions Wikipedia, commits GitHub). 7 systèmes testés (LLMs, RAG, agents) obtiennent 27,9% de précision moyenne, limités par la récupération et la construction mémoire.

Agents IABenchmarksRAG
SIG
78
HYP
15
arXiv cs.AI·

Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning

Distinguishable Deletion (D²) unifie suppression de connaissance et refus pour l'oubli des LLM. La méthode utilise un index énergétique pour effacer les connaissances indésirables dans les représentations latentes plutôt que des tokens spécifiques, évitant la suppression biaisée et la réémergence de contenu nuisible. Energy-based Unlearning Alignment (EUA) applique ce mécanisme à l'entraînement et l'inférence.

Sécurité IAAlignementPapers
SIG
72
HYP
25
arXiv cs.AI·

SLASH the Sink: Sharpening Structural Attention Inside LLMs

Les LLMs reconstruisent spontanément la topologie des graphes via des patterns d'attention « sawtooth », mais cette compréhension structurelle est diluée par l'attention sink. SLASH, une solution sans entraînement, réamplifie cette compréhension via une redistribution d'attention plug-and-play, montrant des gains significatifs sur tâches graphiques et prédiction moléculaire.

RaisonnementPapersBenchmarks
SIG
75
HYP
25
arXiv cs.AI·

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Nouvelle méthode IBAL pour renforcer la robustesse du MARL face aux perturbations d'interactions inter-agents. Le framework utilise une approche théorique de l'information pour construire des attaques qui dégradent la coordination en perturbant observations et actions, puis entraîne les agents à rester fiables. Amélioration démontrée sur baselines existants et scénarios d'agents manquants.

Multi-agentsReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

EmoMind: Decoding Affective Captions from Human Brain fMRI

EmoMind décode des descriptions affectives directes depuis les signaux fMRI du cerveau. Le système récupère d'abord une description neutre de la scène visuelle, puis la réécrit en utilisant un vecteur émotionnel continu de 34 dimensions extrait du même enregistrement fMRI. Évalué sur deux datasets indépendants, EmoMind surpasse GPT-4 avec étiquettes discrètes sur tous les axes de validation.

VisionRaisonnementÉvaluations
SIG
75
HYP
25
arXiv cs.AI·

Whispers in the Noise: Surrogate-Guided Concept Awakening via a Multi-Agent Framework

ConceptAgent, un framework multi-agent sans entraînement, contourne l'effacement de concepts dans les modèles de diffusion en exploitant la dynamique du débruitage. L'approche black-box réveille des concepts supprimés en initialisant la trajectoire de débruitage via des états bruyants guidés par substitut, sans accès aux paramètres du modèle.

Multi-agentsSécurité IAGénération d'images
SIG
72
HYP
35
arXiv cs.AI·

Agents for Experiments, Experiments for Agents: A Design Grammar for AI-Enabled Experimental Science

SEED est un framework qui représente les conditions expérimentales en graphes d'acteurs typés pour étudier les systèmes multi-agents et workflows humain-IA. Il permet de décrire les conditions, évaluer la nouveauté structurelle et générer des designs candidats sous contraintes. Test empirique sur triage médical montre que SEED-guided designs offrent meilleure traçabilité des changements d'interaction et gouvernance.

Agents IAMulti-agentsÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Semantic Smoothing via Novel View Synthesis for Robust SAR Image Classification

Défense contre les perturbations adversariales pour la classification SAR via lissage sémantique. Remplace le bruit isotrope par des transformations géométriques générées par synthèse de nouvelles vues, conditionnées sur la géométrie d'acquisition. Améliore la robustesse contre FGSM, PGD, OTSA, SMGAA tout en augmentant la précision en classification nette.

Sécurité IAVisionÉvaluations
SIG
72
HYP
15
arXiv cs.AI·

Recall Isn't Enough: Bounding Commitments in Personalized Language Systems

Article arXiv proposant CBEA+LCV, une méthode pour valider les engagements dans les systèmes de langage personnalisés. Plutôt que traiter la personnalisation comme un problème de rappel, l'approche structure les contraintes avant génération. Sur 360 tests, atteint zéro défaillance à 0.49-0.60 disponibilité contre 0.003-0.092 pour les baselines, avec 74-75% réduction de payload.

RaisonnementÉvaluationsSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Baba in Wonderland: Online Self-Supervised Dynamics Discovery for Executable World Models

Alice est un système d'apprentissage de modèles monde exécutables en ligne qui découvre les dynamiques d'environnement sans descriptions de règles ni signaux de récompense. L'agent induit les lois de transition par interaction seule, en traitant les conflits de préservation comme signal structurel pour raffiner les hypothèses. Évaluation sur Baba in Wonderland montre une amélioration substantielle.

RaisonnementReinforcement learningPapers
SIG
72
HYP
15
arXiv cs.AI·

Multi-Paradigm Agent Interaction in Practice:A Systematic Analysis of Generator-Evaluator, ReAct Loop,and Adversarial Evaluation in the buddyMe Framework

buddyMe, framework open-source multi-modèles, intègre trois paradigmes d'interaction d'agents : orchestration multi-agents (Generator-Evaluator), boucles ReAct, interaction augmentée par mémoire. Pipeline 5 étapes testé sur 4 cas réels (guides musée, météo, planification). Résultats : détection 20% omissions requêtes, 30% invocations outils redondantes, consensus adversarial en 2-3 rounds (70% cas).

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
28
arXiv cs.AI·

AnchorDiff: Topology-Aware Masked Diffusion with Confidence-based Rewriting for Radiology Report Generation

AnchorDiff propose un framework de diffusion masquée pour la génération de rapports radiologiques, intégrant des ancres cliniques dérivées de graphes de connaissances. Contrairement aux modèles autorégressifs traditionnels, cette approche bidirectionnelle utilise une stratégie d'entraînement sensible à la topologie basée sur RadGraph et un raffinement itératif. SOTA sur MIMIC-CXR et MIMIC-RG4.

PapersBenchmarksGénération de code
SIG
72
HYP
18
arXiv cs.AI·

Towards Sustainable Growth: A Multi-Value-Aware Retrieval Framework for E-Commerce Search

GrowthGR, un framework de retrieval pour e-commerce, résout le problème du « Matthew effect » en équilibrant conversion immédiate et croissance long-terme des nouveaux produits. Déployé sur Taobao, il combine prédiction de valeur transactionnelle (ItemLTV) et optimisation multi-valeurs (MoPO), atteignant +5.3% GMV nouveaux items et +0.3% GMV global.

RAGReinforcement learningBusiness
SIG
78
HYP
25
arXiv cs.AI·

Towards Robust Argumentative Essay Understanding via TIDE: An Interactive Framework with Trial and Debate

TIDE est un framework de prompt optimization basé sur un mécanisme de Trial and Debate pour améliorer la compréhension d'essais argumentatifs. Évalué sur trois tâches (Automated Essay Scoring, Argument Component Detection, Argument Relation Identification), il réduit l'impact des données bruitées et améliore la stabilité de l'optimisation.

Prompt engineeringRaisonnementÉvaluations
SIG
62
HYP
28
arXiv cs.AI·

MetaCogAgent: A Metacognitive Multi-Agent LLM Framework with Self-Aware Task Delegation

MetaCogAgent est un framework multi-agent LLM où chaque agent évalue sa compétence avant d'exécuter une tâche via une Metacognitive Self-Assessment Unit. Le système combine évaluation d'incertitude et profils historiques pour router les tâches vers les agents les plus adaptés. Sur le benchmark MetaCog-Eval (700 tâches), il atteint 82.4% de précision (+8.7% vs baselines) avec 5% moins d'appels API qu'AutoGen.

Multi-agentsAgents IARaisonnement
SIG
72
HYP
28
arXiv cs.AI·

HyperPersona: A Multi-Level Hypergraph Framework for Text-Based Automatic Personality Prediction

HyperPersona propose un framework basé hypergraphes pour prédire la personnalité à partir de texte. Le modèle capture explicitement la hiérarchie du langage (document, phrase, mot) via une structure hypergraphique, puis utilise un encodeur transformer pour modéliser les dépendances multi-niveaux. Résultats supérieurs sur les Big Five dimensions de personnalité.

RaisonnementBenchmarks
SIG
62
HYP
28
arXiv cs.AI·

Verify-Gated Completion as Admission Control in a Governed Multi-Agent Runtime: A Bounded Architecture Case Study

Étude d'un pattern verify-gated completion pour contrôler les systèmes multi-agents persistants. Implémentation bornée : 99.5% de succès de vérification (1,791/1,800 événements), 98.58% d'accord avec les règles de gouvernance. Les résultats restent limités à l'inspectabilité des décisions et au fail-closed ; aucune garantie de sécurité ou couverture au niveau des tâches.

Multi-agentsAgents IASécurité IA
SIG
65
HYP
15
arXiv cs.AI·

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Étude montrant que les modèles de langage fine-tunés sur les échecs mémorisent plutôt que de généraliser. KinGPT (25M params) surpasse ChessGPT (3B) et C1-4B sur des benchmarks d'échecs, mais l'analyse révèle une reconnaissance de motifs. LLM-Modulo, framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de coups. Code et modèles open-sourcés.

BenchmarksÉvaluationsFine-tuning
SIG
78
HYP
25
arXiv cs.AI·

AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment

AutoRubric-T2I est un framework qui synthétise automatiquement des rubrics explicites pour évaluer l'alignement texte-image via des juges Vision-Language Model. Utilisant <0.01% des données d'annotation requises par les modèles de récompense traditionnels, il surpasse les baselines sur MMRB2 et améliore la qualité de génération avec Flow-GRPO sur modèles de diffusion.

Génération d'imagesVisionÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games

WebGameBench est un benchmark évaluant si les agents de code peuvent transformer une spécification de jeu web en application jouable dans un navigateur. Sur 111 tâches et 12 agents, le meilleur atteint 76,9% de taux utilisable mais seulement 20,2% excellent, révélant un écart entre livraison minimale et satisfaction complète des exigences.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents

CMI (Causal Memory Intervention) sélectionne les souvenirs pertinents pour les agents LLM long-horizon via interventions causales contrôlées, plutôt que par similarité sémantique. Benchmark Causal-LoCoMo introduit avec mémoires utiles, distracteurs et souvenirs nuisibles synthétiques. CMI surpasse baselines (vector, graph, reflection, summary) en robustesse face aux mémoires trompeuses.

Agents IARaisonnementBenchmarks
SIG
72
HYP
18
arXiv cs.LG·

Byzantine-Resilient Federated Learning via QUBO-Based Client Selection on Quantum Annealers

Approche de recuit quantique pour sélectionner les clients fiables en apprentissage fédéré face aux attaques byzantines. Reformulation en problème QUBO résolvant conjointement les sous-ensembles de clients les plus proches. MultiSignal (ensemble hybride) atteint 95,3% de détection à 100 clients sur MNIST vs 91,8% pour MultiKrum classique, avec gains majeurs sur Sparse Lie (+23,2 points) et Advanced Lie (+4,8 points).

Reinforcement learningSécurité IABenchmarks
SIG
72
HYP
25
arXiv cs.AI·

Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models

Les chercheurs identifient l'Entropy-Gradient Inversion, une corrélation négative entre l'entropie des tokens et les gradients de logits, comme signature géométrique des capacités de raisonnement des grands modèles. Ils proposent CorR-PO, une méthode d'optimisation par renforcement intégrant cette signature dans la régularisation des récompenses, surpassant les baselines sur plusieurs benchmarks de raisonnement.

RaisonnementReinforcement learningBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Interactive Evaluation Requires a Design Science

Position paper sur l'évaluation interactive des LLM. Les modèles déployés comme systèmes agissant dans le temps (outils, environnements, agents) nécessitent un paradigme d'évaluation distinct des benchmarks statiques. Les auteurs proposent une taxonomie, des principes de design et des standards de reporting pour évaluer processus, récupérabilité, coordination, robustesse et performance système.

Agents IAÉvaluationsBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

SWIM aligne les représentations vision-langage pour la compréhension fine d'objets vidéo via prompts textuels seuls. Utilise la supervision de masques en entraînement pour guider l'attention cross-modale. Construit NL-Refer, dataset enrichi avec expressions référentes précises. Surpasse les méthodes basées prompts visuels sur les benchmarks.

VisionRAGEmbeddings
SIG
75
HYP
25
arXiv cs.AI·

PROTEA: Offline Evaluation and Iterative Refinement for Multi-Agent LLM Workflows

PROTEA est une interface pour déboguer et affiner les workflows multi-agents LLM hors ligne. Elle évalue les sorties intermédiaires avec des rubriques configurables, localise les goulots d'étranglement via le graphe du workflow, et génère des révisions de prompts ciblées. Sur deux workflows en production, PROTEA améliore la précision de 64,3% à 83,9% et le Hit@5 de 0,30 à 0,38.

Multi-agentsAgents IAPrompt engineering
SIG
78
HYP
18
arXiv cs.AI·

Agentic Chunking and Bayesian De-chunking of AI Generated Fuzzy Cognitive Maps: A Model of the Thucydides Trap

Génération automatique de cartes cognitives floues (FCM) causales à partir de texte via agents LLM qui segmentent le texte en chunks chevauchants. Mélange convexe des FCM de chunks pour former un graphe de connaissance FCM cyclique. Inférence bayésienne au niveau opérateur produisant des FCM « de-chunkées ». Démonstration sur le modèle du Piège de Thucydide : 7/8 FCM prédisent un conflit armé.

Agents IARaisonnementGemini
SIG
45
HYP
35
arXiv cs.AI·

SVFSearch: A Multimodal Knowledge-Intensive Benchmark for Short-Video Frame Search in the Gaming Vertical Domain

SVFSearch est un benchmark multimodal pour la recherche de frames dans des vidéos courtes du domaine gaming chinois. Il contient 5 000 exemples de test et 4 198 exemples d'entraînement basés sur des scènes de jeux réelles. L'évaluation compare QA direct, RAG, agents Plan-Act-Replan et modèles de recherche appris : le meilleur modèle open-source atteint 66,4%, le meilleur agent pratique 79,1%, oracle 95,4%.

BenchmarksAgents IARAG
SIG
78
HYP
15
arXiv cs.AI·

TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?

TeleCom-Bench est un benchmark de 22 678 échantillons évaluant 8 LLMs sur des tâches télécom réelles (reconnaissance d'intention, extraction d'entités, analyse de cause racine, génération de solutions). Les modèles atteignent 90% en tâches linguistiques mais s'effondrent à 30% en exécution procédurale, révélant un « Execution Wall » : les LLMs diagnostiquent bien mais échouent comme ingénieurs terrain.

BenchmarksRaisonnementAgents IA
SIG
82
HYP
25
arXiv cs.AI·

FLAG: Foundation model representation with Latent diffusion Alignment via Graph for spatial gene expression prediction

FLAG est un framework basé sur la diffusion latente pour prédire l'expression génique spatiale à partir d'images H&E. Il intègre un encodeur graphique spatial et l'alignement avec un Gene Foundation Model pour résoudre la malédiction de la dimensionnalité génique et préserver les relations biologiques (coordination génique, distribution spatiale). Nouvelles métriques d'évaluation : GSC et SSC.

PapersVisionRaisonnement
SIG
72
HYP
18
arXiv cs.LG·

Edge-AI-Driven Learning-to-Rank for Decentralized Task Allocation in Circular Smart Manufacturing

Framework de allocation de tâches décentralisée pour manufactures circulaires, utilisant Edge-AI et learning-to-rank. Chaque machine évalue les tâches avec ses informations locales (capacité, queue, contention). Résultats : réduction des délais, meilleure adhérence aux deadlines, efficacité énergétique améliorée en simulation.

Agents IAReinforcement learningÉvaluations
SIG
65
HYP
15
arXiv cs.AI·

Evidence-Grounded Frontier Mapping and Agentic Hypothesis Generation in Nanomedicine

pArticleMap combine embeddings d'articles, analyse de graphes de similarité et workflows LLM audités pour générer des hypothèses de recherche fondées sur des preuves en nanomédecine. Le système cible les régions de faible densité et interfaces de clusters pour identifier des directions de recherche. Évaluation rétrospective : 10,8% de taux de récupération d'or, recall@10 de 15,9%, taux de voisinage futur de 61,0%.

Agents IARAGEmbeddings
SIG
72
HYP
28
arXiv cs.AI·

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

VISAFF est un framework pour la reconnaissance d'émotions en conversation (ERC) utilisant des modèles vision-langage. Il combine deux étapes : ancrage affectif centré sur le locuteur et complémentation affective guidée par la fiabilité. L'approche sans fine-tuning exploite les capacités de raisonnement de VLMs gelés, intégrant signaux visuels, textuels et acoustiques pour améliorer la précision.

VisionMulti-agentsPapers
SIG
72
HYP
25
arXiv cs.AI·

Learning Lifted Action Models from Traces with Minimal Information About Actions and States

Apprentissage de modèles d'actions STRIPS+ levés à partir de traces partielles. Les auteurs relaxent les hypothèses précédentes en permettant une observabilité partielle des actions et états. Trois cas sont formalisés : sans observabilité d'état, avec observabilité complète de certains prédicats, avec observabilité locale. Résultats de complétude et expériences inclus.

RaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

SCICONVBENCH est un benchmark évaluant la capacité des LLM à clarifier des problèmes mal posés en science computationnelle via dialogue multi-tour. Couvre mécanique des fluides, mécanique solide, science des matériaux et EDP. Les meilleurs modèles résolvent seulement 52,7% des cas d'ambiguïté en mécanique des fluides, mais performent mieux sur la détection d'incohérences.

BenchmarksRaisonnementGénération de code
SIG
78
HYP
15
arXiv cs.AI·

Position: A Three-Layer Probabilistic Assume-Guarantee Architecture Is Structurally Required for Safe LLM Agent Deployment

Article de position argumentant qu'une architecture à trois couches probabilistes (intent/conformité, validité environnementale, faisabilité dynamique) est structurellement nécessaire pour déployer des agents LLM sûrs. Chaque couche doit certifier indépendamment une dimension de sécurité via des garanties probabilistes composables.

Agents IASécurité IAAlignement
SIG
72
HYP
15
arXiv cs.LG·

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning

QuantFPFlow intègre l'estimation quantique d'amplitude dans l'optimisation stochastique de politique via la formulation de Fokker-Planck. Grover-amplified atteint une accélération quadratique O(1/ε) vs O(1/ε²) classique. Sur tâches continues, surpasse SAC (1295.7 vs 1284.0 reward) et découvre l'optimum global 10.4% plus souvent (33.9% vs 30.7%).

Reinforcement learningRaisonnementPapers
SIG
72
HYP
28
arXiv cs.AI·

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Optimisation systématique de modèles de diffusion en temps réel sur Apple M3 Ultra (GPU 60 cœurs, 512 GB mémoire unifiée). Combinaison de CoreML, quantization, Token Merging, distillation (SDXS-512) et pipeline caméra 3-threads atteint 22.7 FPS à 512x512. Révèle que les optimisations CUDA ne s'appliquent pas à l'architecture mémoire unifiée d'Apple Silicon.

Génération d'imagesBenchmarksInfrastructure
SIG
78
HYP
15
arXiv cs.AI·

AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course

Étude d'implémentation de Google Notebook LM dans un cours d'anglais académique (106 étudiants, Hong Kong). Génération de vidéos, podcasts et infographies via RAG. Les étudiants ont apprécié les contenus visuels et multimodaux ; la préférence vidéo corrèle positivement avec les résultats académiques. La charge cognitive élevée impacte négativement les notes.

RAGÉvaluationsOutils
SIG
72
HYP
25
arXiv cs.AI·

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusion en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progression de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 5.6pp en raisonnement mathématique.

Reinforcement learningRaisonnementGénération de code
SIG
78
HYP
15
arXiv cs.AI·

Train the Trainers -- An Agentic AI Framework for Peer-Based Mental Health Support in Battlefield Environments

Framework agentic IA pour soutien psychologique par pairs en environnement militaire. Soldats formés comme facilitateurs pairs supervisent des agents IA spécialisés (triage, interventions, documentation) en settings sans connectivité. Prototype développé avec U.S. Army Health Center. Objectif : réduire évacuations, accélérer prise en charge, maintenir supervision humaine.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
28
arXiv cs.AI·

SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

SENSE est un framework génératif basé sur diffusion qui synthétise conjointement des images satellite urbaines réalistes et des cartes d'énergie/hauteur de bâtiments alignées. Testé sur NYC, Boston, Lyon et Busan, il génère des données annotées avec <20% de données étiquetées, améliorant la performance de prédiction de 10% IoU et réduisant l'erreur de 3-11% NMBE.

Génération d'imagesGénération de codeBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

Article théorique proposant des optimiseurs respectant les symétries des architectures neuronales modernes. Introduit des règles de mise à jour équivariantes pour embeddings, têtes LM, MLPs SwiGLU et routeurs MoE. Validation sur modèles denses et sparse MoE (Qwen3, Gemma 3, OLMoE, gpt-oss) montrant amélioration de la perte de validation vs AdamW.

PapersReinforcement learningBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency

SAGE, un framework d'auto-évolution, améliore le raisonnement spatial des VLMs en appliquant une cohérence logique via des opérations géométriques et linguistiques. Intégré comme étape de post-training GRPO légère, il corrige les incohérences sous transformations prédictibles et montre des gains sur benchmarks vidéo et spatial.

VisionRaisonnementReinforcement learning
SIG
72
HYP
28
arXiv cs.AI·

RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

Framework pour la génération active de graphes de scènes 3D à partir de caméras RGB uniquement, sans capteurs de profondeur. Unifie perception et planification autour d'une représentation structurée. Sur Replica, atteint la parité F1 avec les baselines utilisant la profondeur ground-truth. La sélection de points de vue sémantique détecte 2× plus d'objets qu'une baseline géométrique.

VisionRobotiqueAgents IA
SIG
72
HYP
25
arXiv cs.AI·

Beyond Imperfect Alternatives with Rulemapping: A Neuro-Symbolic Case Study on Online Hate Speech

Étude neuro-symbolique comparant LLMs contraints par des scaffolds logiques déterministes (Rulemapping) versus prompting libre pour la modération de contenu haineux selon le code pénal allemand (§130). Rulemapping atteint précision 0.80-0.86 et rappel 0.82-0.89 contre 0.34-0.49 en prompting non contraint, éliminant la confusion entre offense morale et illégalité.

RaisonnementSécurité IARégulation
SIG
75
HYP
15
arXiv cs.AI·

Taxonomy and Consistency Analysis of Safety Benchmarks for AI Agents

Analyse systématique de 40 benchmarks de sécurité pour agents IA (2023-2026). Les benchmarks présentent des modèles de menace incompatibles, des métriques fragmentées et une couverture de risques incohérente. Test de concordance (Kendall's W = 0.10, p = 0.94) révèle l'absence d'alignement entre évaluations. Publication de métadonnées structurées et standards minimaux de reporting.

Agents IASécurité IAÉvaluations
SIG
85
HYP
15
arXiv cs.LG·

Mixing Times of Glauber Dynamics on Masked Language Models

Les modèles de langage masqué (MLM) définissent des distributions conditionnelles locales incompatibles avec une distribution jointe globale cohérente. Les auteurs modélisent le rééchantillonnage itératif comme une chaîne de Markov Glauber dynamics et prouvent un temps de mélange O(n log n) sous influence cross-token bornée, mais exhibent une métastabilité exponentielle à basse température.

PapersRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

UVTran: Accurate Hole-Filling Parameterization with Transformers

UVTran, un framework basé transformers, résout le problème du remplissage de trous N-côtés en CAO. Il prédit une surface de projection auxiliaire via un mécanisme de cross-attention biaisé vers les points de contrôle proches, voxélise les coordonnées et utilise un entraînement multi-résolution. Sur benchmark, il améliore le taux de satisfaction de tolérance de 12% vs baselines industrielles et académiques.

PapersRaisonnement
SIG
72
HYP
15
arXiv cs.LG·

M$^2$FedAQI: Multimodal Federated Learning for Air Quality Prediction on Heterogeneous Edge Devices

M²FedAQI propose un framework fédéré multimodal léger pour la prédiction décentralisée de l'indice de qualité de l'air (AQI) sur des appareils edge hétérogènes. Le système fusionne données visuelles et tabulaires via un mécanisme de modulation de features. Évalué sur PM25Vision et TRAQID, il améliore l'accuracy de 11%, l'AUC de 3,53%, le F1-score de 12,2% et R² de 18% par rapport aux baselines.

VisionBenchmarksPapers
SIG
72
HYP
25
arXiv cs.AI·

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

ProxyKV propose un framework de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une Small-Model Proxy légère évalue l'importance du cache KV de manière asynchrone pour le modèle cible. Tests sur Llama-3.1, Qwen-2.5 et Qwen-3 : récupère 98.7% de la précision de KVZip avec speedup jusqu'à 3.21× en prefilling (Llama-3.1-8B, dual-GPU) et maintient les gains jusqu'à 170k tokens.

LlamaQwenRaisonnement
SIG
78
HYP
15
arXiv cs.AI·

StrLoRA: Towards Streaming Continual Visual Instruction Tuning for MLLMs

StrLoRA introduit un cadre de tuning visuel continu en streaming pour MLLMs. Contrairement aux méthodes existantes limitées à des tâches prédéfinies, StrCVIT traite des flux de données avec tâches dynamiques et entrelacées. StrLoRA utilise un routage d'experts à deux étapes avec sélection consciente des tâches et pondération token-wise, stabilisé par régularisation.

Multi-agentsFine-tuningVision
SIG
72
HYP
28
arXiv cs.AI·

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs

Fre-Res propose une compression adaptative des tokens vidéo pour les MLLMs vidéo. Le framework sépare les détails spatiaux (ancres haute-fidélité) et l'évolution temporelle (tokens résidus-fréquence via DCT 1D). Un Spatial-Guided Absorber aligne les dynamiques fréquentielles avec les embeddings visuels. Résultats : performance proche du full-token avec réduction substantielle de la longueur des tokens.

VisionGénération de vidéosÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

CheckSupport: A Local LLM-Powered Tool for Automated Manuscript Submission Checklist Selection and Completion

CheckSupport est un système open-source utilisant des LLM locaux pour automatiser la sélection et la complétion de checklists de reporting scientifique. Évalué sur des manuscrits peer-reviewed, il atteint 90% de précision pour les recommandations et 88% pour la complétion d'items, en 12,5 secondes par manuscrit sur CPU.

LlamaPrompt engineeringÉvaluations
SIG
75
HYP
15