Page 77 sur 149

ToutHaut signalRécent
5938 articles
arXiv cs.AI·

Progressive Generalization Augmentation with Deeply Coupled RND-PPO and Domain-Prioritized Noise Injection for Robust Crop Management Reinforcement Learning

Papier arXiv proposant Progressive Generalization Augmentation (PGA) pour améliorer la robustesse des systèmes RL agricoles. Architecture RND-PPO couplée + injection de bruit hiérarchisée. Résultats : +8.43% rendement, +16.42% efficacité azotée vs BERT-DQN en Floride ; 94.4% rétention performance sous perturbations combinées.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

MusicSynth: An Automated Pipeline for Generating Violin Fingerboard Animations from Sheet Music Using Optical Music Recognition

MusicSynth est un outil web open-source qui convertit automatiquement des partitions de violon (photo ou fichier) en vidéos animées montrant le positionnement des doigts sur le manche. Le système combine reconnaissance optique de musique (OMR), parsing MusicXML et rendu vidéo. Testé sur 110 partitions : 91,2% de reconnaissance des notes en musique imprimée, 99,1% de précision en positionnement des doigts.

VisionGénération de codeOpen source
SIG
72
HYP
25
arXiv cs.AI·

Task-Level AI Readiness Assessment for Business Process Management:The T-IPO Model and LARA Matrix in Financial-Services IT Operations

Papier arXiv proposant T-IPO et LARA, deux outils pour évaluer la capacité des agents LLM à gérer des tâches métier. LARA est une matrice 5 dimensions classant les tâches en 4 niveaux (L1-L4), avec poids 1.5× sur la sensibilité compliance. Validation sur 127 tâches (κ=0.80), réplication sur 3 institutions (κ=0.73). Auto-completion décroît de 95% (L1) à 40% (L3).

Agents IAÉvaluationsPapers
SIG
72
HYP
15
arXiv cs.CL·

Presupposition and Reasoning in Conditionals: A Theory-Based Study of Humans and LLMs

Étude comparative des jugements humains et prédictions de 4 LLMs sur la projection de présuppositions dans les conditionnels. 120 participants évalués en parallèle avec les modèles. Les humains intègrent indices probabilistes et pragmatiques ; les LLMs montrent alignement variable. Les modèles alignés aux humains manquent de raisonnement pragmatique cohérent.

BenchmarksRaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents

DiagEval est un protocole d'évaluation diagnostique pour les agents GUI testant des logiciels interactifs générés par LLM. Il réutilise les trajectoires échouées pour identifier si les défaillances proviennent de l'évaluateur ou du logiciel. Sur WebDevJudge-Unit et RealDevBench, DiagEval récupère 45.6-62.1% des faux négatifs et améliore la précision de 69.9% à 78.3% et de 65.0% à 81.6%.

Agents IAÉvaluationsGénération de code
SIG
72
HYP
18
arXiv cs.AI·

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

VISAFF est un framework pour la reconnaissance d'émotions en conversation (ERC) utilisant des modèles vision-langage. Il combine deux étapes : ancrage affectif centré sur le locuteur et complémentation affective guidée par la fiabilité. L'approche sans fine-tuning exploite les capacités de raisonnement de VLMs gelés, intégrant signaux visuels, textuels et acoustiques pour améliorer la précision.

VisionMulti-agentsPapers
SIG
72
HYP
25
arXiv cs.AI·

AI4BayesCode: From Natural Language Descriptions to Validated Modular Stateful Bayesian Samplers

AI4BayesCode traduit des descriptions en langage naturel en samplers MCMC validés et modulaires. Le système décompose les modèles bayésiens en blocs de sampling mappés à des composants intégrés, avec validation pré et post-génération. Une architecture stateful récursive permet la composition cohérente de composants développés indépendamment.

Génération de codeAgents IARaisonnement
SIG
72
HYP
28
arXiv cs.AI·

Automated Knowledge Component Generation for Interpretable Knowledge Tracing in Coding Problems

Pipeline automatisé basé LLM pour générer et étiqueter des composants de connaissances (KC) sur des problèmes de programmation. Le framework KCGen-KT utilise ces KC générés pour le knowledge tracing. Évaluation sur deux datasets réels : surpasse les méthodes existantes et les KC écrits par humains pour prédire les réponses futures des étudiants.

LlamaGénération de codeÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

Learning Lifted Action Models from Traces with Minimal Information About Actions and States

Apprentissage de modèles d'actions STRIPS+ levés à partir de traces partielles. Les auteurs relaxent les hypothèses précédentes en permettant une observabilité partielle des actions et états. Trois cas sont formalisés : sans observabilité d'état, avec observabilité complète de certains prédicats, avec observabilité locale. Résultats de complétude et expériences inclus.

RaisonnementPapers
SIG
72
HYP
15
arXiv cs.AI·

From Reactive to Proactive: A Multi-Regulatory Empirical Analysis of 480 AI Incidents and a Data-Driven Governance Compliance Framework

Analyse de 480 incidents IA réels du AIID comparés aux cadres de gouvernance EU AI Act, NIST AI Risk Management Framework et GDPR. Révèle des lacunes substantielles dans la responsabilité post-déploiement. Propose le Proactive AI Governance Compliance Framework (PAGCF), méthodologie en 4 phases pour passer d'une gouvernance réactive à une assurance de conformité pré-déploiement.

RégulationSécurité IAAlignement
SIG
72
HYP
18
arXiv cs.AI·

Position: A Three-Layer Probabilistic Assume-Guarantee Architecture Is Structurally Required for Safe LLM Agent Deployment

Article de position argumentant qu'une architecture à trois couches probabilistes (intent/conformité, validité environnementale, faisabilité dynamique) est structurellement nécessaire pour déployer des agents LLM sûrs. Chaque couche doit certifier indépendamment une dimension de sécurité via des garanties probabilistes composables.

Agents IASécurité IAAlignement
SIG
72
HYP
15
arXiv cs.CL·

MA$^{2}$P: A Meta-Cognitive Autonomous Intelligent Agents Framework for Complex Persuasion

MA²P est un framework multi-agent autonome pour la persuasion complexe. Il coordonne la gestion de la perception, l'inférence d'états mentaux, l'exécution de stratégies et l'évaluation des performances. Un configurateur meta-cognitif sélectionne une méta-stratégie adaptée au domaine pour améliorer la généralisation et le taux de succès de persuasion.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
35
arXiv cs.AI·

GCE-MIL: Faithful and Recoverable Evidence for Multiple Instance Learning in Whole-Slide Imaging

GCE-MIL améliore l'apprentissage multi-instance pour l'analyse d'images histologiques en optimisant directement la qualité des preuves (suffisance, nécessité, récupérabilité) plutôt que de s'appuyer sur les poids d'attention. Sur 81 configurations (9 backbones, 9 datasets), le gain Macro-F1 atteint +0.024 et C-index +0.014, avec inférence 5× plus rapide.

PapersBenchmarksVision
SIG
72
HYP
18
arXiv cs.AI·

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Vision-OPD propose une auto-distillation régionale-globale pour améliorer la compréhension visuelle fine des MLLMs. Le framework transfère la perception privilégiée du modèle sur des crops centrés sur les preuves vers sa politique pleine image, via minimisation de divergence KL entre distributions de tokens. Résultats compétitifs sur benchmarks de compréhension visuelle fine sans modèles externes ni labels.

VisionReinforcement learningBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

Multilingual OCR-Aware Fine-Tuning and Prompt-Guided Chain-of-Thought Reasoning for Multimodal Large Language Models

Framework de fine-tuning multilingue pour MLLMs combinant génération synthétique OCR-traduction, SFT avec LoRA et chain-of-thought visuel structuré. Améliore significativement l'extraction de texte petit, flou, occludé sur reçus, menus, documents en conditions visuelles dégradées. Surpasse GPT-5 et Gemini sur OCR et hallucinations.

VisionRaisonnementFine-tuning
SIG
72
HYP
28
arXiv cs.AI·

AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course

Étude d'implémentation de Google Notebook LM dans un cours d'anglais académique (106 étudiants, Hong Kong). Génération de vidéos, podcasts et infographies via RAG. Les étudiants ont apprécié les contenus visuels et multimodaux ; la préférence vidéo corrèle positivement avec les résultats académiques. La charge cognitive élevée impacte négativement les notes.

RAGÉvaluationsOutils
SIG
72
HYP
25
arXiv cs.CL·

LLM-Based Intelligent Notification Composition: From Static Personalization to Context-Aware Persuasive Messaging

Étude sur l'utilisation des LLM pour composer des notifications push personnalisées et persuasives. Les auteurs définissent 6 dimensions de qualité (pertinence contextuelle, clarté, actionnabilité, etc.) et montrent des gains de +8% à +14.5% en CTR vs templates statiques. Propose un framework architectural avec routing budgété, génération ancrée et apprentissage en ligne.

Prompt engineeringRAGBusiness
SIG
72
HYP
28
arXiv cs.AI·

Reversa: A Reverse Documentation Engineering Framework for Converting Legacy Software into Operational Specifications for AI Agents

Reversa est un framework de rétro-ingénierie documentaire qui convertit les systèmes legacy en spécifications opérationnelles pour agents IA. Un pipeline multi-agents extrait les règles métier implicites, synthétise l'architecture et génère des spécifications traçables avec marquage de confiance. Étude de cas : migration ATM COBOL→Go produisant 517 claims, 10 gaps identifiés et 53 scénarios Gherkin.

Agents IAMulti-agentsGénération de code
SIG
72
HYP
25
arXiv cs.AI·

BESplit: Bias-Compensated Split Federated Learning with Evidential Aggregation

BESplit propose un cadre de federated learning distribué (SFL) pour atténuer les effets des données non-IID. La méthode combine Evidential Aggregation pour pondérer les contributions clients, Bias-Compensated Collaboration pour aligner les représentations, et Dual-Teacher Distillation pour synchroniser les modèles. Tests sur 5 benchmarks montrent amélioration de précision et stabilité.

AlignementBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Train the Trainers -- An Agentic AI Framework for Peer-Based Mental Health Support in Battlefield Environments

Framework agentic IA pour soutien psychologique par pairs en environnement militaire. Soldats formés comme facilitateurs pairs supervisent des agents IA spécialisés (triage, interventions, documentation) en settings sans connectivité. Prototype développé avec U.S. Army Health Center. Objectif : réduire évacuations, accélérer prise en charge, maintenir supervision humaine.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
28
arXiv cs.AI·

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

COOPO est un algorithme d'apprentissage par renforcement hybride offline-online qui alterne entre entraînement offline régularisé par KL et fine-tuning online. Le retour cyclique à l'entraînement offline élimine l'oubli catastrophique et la dérive de distribution. Sur les benchmarks D4RL, COOPO réduit les interactions online tout en améliorant les performances finales.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

SENSE est un framework génératif basé sur diffusion qui synthétise conjointement des images satellite urbaines réalistes et des cartes d'énergie/hauteur de bâtiments alignées. Testé sur NYC, Boston, Lyon et Busan, il génère des données annotées avec <20% de données étiquetées, améliorant la performance de prédiction de 10% IoU et réduisant l'erreur de 3-11% NMBE.

Génération d'imagesGénération de codeBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

Article théorique proposant des optimiseurs respectant les symétries des architectures neuronales modernes. Introduit des règles de mise à jour équivariantes pour embeddings, têtes LM, MLPs SwiGLU et routeurs MoE. Validation sur modèles denses et sparse MoE (Qwen3, Gemma 3, OLMoE, gpt-oss) montrant amélioration de la perte de validation vs AdamW.

PapersReinforcement learningBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Latent Action Reparameterization for Efficient Agent Inference

LAR (Latent Action Reparameterization) compresse l'espace d'actions des agents LLM en apprenant des actions latentes multi-étapes sémantiques. Cela réduit l'horizon de décision effectif et les coûts d'inférence tout en préservant l'expressivité. Sur plusieurs benchmarks, LAR diminue les tokens d'action et le temps d'inférence sans dégrader les taux de succès.

Agents IAGénération de codeRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency

SAGE, un framework d'auto-évolution, améliore le raisonnement spatial des VLMs en appliquant une cohérence logique via des opérations géométriques et linguistiques. Intégré comme étape de post-training GRPO légère, il corrige les incohérences sous transformations prédictibles et montre des gains sur benchmarks vidéo et spatial.

VisionRaisonnementReinforcement learning
SIG
72
HYP
28
arXiv cs.AI·

RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

Framework pour la génération active de graphes de scènes 3D à partir de caméras RGB uniquement, sans capteurs de profondeur. Unifie perception et planification autour d'une représentation structurée. Sur Replica, atteint la parité F1 avec les baselines utilisant la profondeur ground-truth. La sélection de points de vue sémantique détecte 2× plus d'objets qu'une baseline géométrique.

VisionRobotiqueAgents IA
SIG
72
HYP
25