Page 74 sur 149

ToutHaut signalRécent
5929 articles
arXiv cs.AI·

MR-SLAM: Immersive Spatial Supervision for Multi-Robot Mapping via Mixed Reality

MR-SLAM est un système de réalité mixte utilisant un Meta Quest 3 pour téléopérer trois robots TurtleBot3 en SLAM collaboratif. L'opérateur voit le monde réel en passthrough avec des panneaux d'information ancrés spatialement. Trois instances SLAM Toolbox fusionnent leurs grilles d'occupation en temps réel via ROS 2, atteignant 94,7% de cohérence inter-robots et 8,83 Hz de scan.

RobotiqueMulti-agentsInfrastructure
SIG
72
HYP
25
arXiv cs.AI·

EAGT: Echocardiography Augmentation for Generalisability and Transferability

Étude comparative de 29 techniques d'augmentation de données pour la segmentation échocardiographique 2D sur U-Net. Les transformations géométriques anatomiquement plausibles (affine, shift-scale-rotate, perspective, flip horizontal) améliorent la généralisation cross-dataset, tandis que les augmentations d'intensité agressives la dégradent. Les combinaisons par paires surpassent les augmentations individuelles.

VisionBenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.AI·

ReTAMamba: Reliability-Aware Temporal Aggregation with Mamba for Irregular Clinical Time Series Prediction

ReTAMamba est un modèle basé sur Mamba pour prédire des séries temporelles cliniques irrégulières. Il estime la fiabilité des observations selon leur absence et le temps écoulé, intègre des informations multi-résolution via « Chronological Weaving », et utilise un routeur de tokens budgété. Sur MIMIC-IV, eICU et PhysioNet 2012, il améliore l'AUPRC de 7,51%, 7,80% et 10,15% respectivement.

BenchmarksPapersRaisonnement
SIG
72
HYP
18
arXiv cs.CL·

SafeLens: Deliberate and Efficient Video Guardrails with Fast-and-Slow Screening

SafeLens propose une architecture de modération vidéo à deux niveaux (fast-and-slow) pour réduire les coûts d'inférence. Le framework filtre le dataset SafeWatch à 2,4% via influence-guided filtering et ajoute des traces Chain-of-Thought. Il surpasse SafeWatch-8B, OmniGuard-7B, GPT-5.4 et Gemini-3.1-pro sur des benchmarks vidéo réels et générés par IA.

VisionSécurité IARaisonnement
SIG
72
HYP
25
arXiv cs.AI·

PEIRA: Learning Predictive Encoders through Inter-View Regressor Alignment

PEIRA est une méthode d'apprentissage auto-supervisé non-contrastif qui analyse la dynamique de JEPA via un régresseur linéaire régularisé. Elle minimise une fonction objective explicite basée sur la trace du régresseur optimal, garantissant des équilibres stables non-effondrés alignés avec les sous-espaces de corrélation canonique. Résultats compétitifs sur ImageNet-1K et CIFAR-10.

PapersBenchmarksEmbeddings
SIG
72
HYP
15
arXiv cs.AI·

Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs

Fre-Res propose une compression adaptative des tokens vidéo pour les MLLMs vidéo. Le framework sépare les détails spatiaux (ancres haute-fidélité) et l'évolution temporelle (tokens résidus-fréquence via DCT 1D). Un Spatial-Guided Absorber aligne les dynamiques fréquentielles avec les embeddings visuels. Résultats : performance proche du full-token avec réduction substantielle de la longueur des tokens.

VisionGénération de vidéosÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Multi-task learning on partially labeled datasets via invariant/equivariant semi-supervised learning

Étude de l'apprentissage semi-supervisé invariant et équivariant (FixMatch, Dense FixMatch) pour l'entraînement multi-tâches sur données partiellement annotées. Tests sur Cityscapes et BDD100K pour détection d'objets et segmentation sémantique. Les approches équivariantes surpassent les baselines supervisées, particulièrement avec peu d'échantillons étiquetés par tâche.

VisionPapers
SIG
72
HYP
15
arXiv cs.AI·

StrLoRA: Towards Streaming Continual Visual Instruction Tuning for MLLMs

StrLoRA introduit un cadre de tuning visuel continu en streaming pour MLLMs. Contrairement aux méthodes existantes limitées à des tâches prédéfinies, StrCVIT traite des flux de données avec tâches dynamiques et entrelacées. StrLoRA utilise un routage d'experts à deux étapes avec sélection consciente des tâches et pondération token-wise, stabilisé par régularisation.

Multi-agentsFine-tuningVision
SIG
72
HYP
28
arXiv cs.AI·

Estimating Item Difficulty with Large Language Models as Experts

Étude évaluant trois LLMs off-the-shelf pour estimer la difficulté d'items pédagogiques sans données de réponse. Sur 6 domaines de mathématiques primaires, les corrélations de Spearman montrent alignement modéré à fort avec les difficultés empiriques. Les comparaisons par paires surpassent les jugements absolus; l'ajout de probabilités de tokens et d'exemples few-shot améliore les résultats.

Prompt engineeringÉvaluationsBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Bayesian-Monte Carlo Schedule Updating for Construction Digital Twins: A Probabilistic Framework for Dynamic Project Forecasting

Framework probabiliste Bayesian-Monte Carlo pour la mise à jour dynamique des calendriers de projets de construction. Modélise les durées d'activité avec distributions lognormales, les met à jour via inférence bayésienne, et propage l'incertitude par simulation Monte Carlo. Démontre une meilleure précision que les méthodes CPM déterministes sur les benchmarks PSPLIB.

RaisonnementBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

UniAlign: A Model-Agnostic Framework for Robust Network Traffic Classification under Distribution Shifts

UniAlign est un framework agnostique aux modèles pour améliorer la robustesse de la classification du trafic réseau face aux changements de distribution. Il combine l'alignement de domaine et l'ensemble de modèles stables, améliorant la précision de 2,51% et le F1 de 2,71% sur trois datasets publics, avec 12,4–53,9% du coût d'entraînement des baselines.

BenchmarksFine-tuning
SIG
72
HYP
15
arXiv cs.AI·

UVTran: Accurate Hole-Filling Parameterization with Transformers

UVTran, un framework basé transformers, résout le problème du remplissage de trous N-côtés en CAO. Il prédit une surface de projection auxiliaire via un mécanisme de cross-attention biaisé vers les points de contrôle proches, voxélise les coordonnées et utilise un entraînement multi-résolution. Sur benchmark, il améliore le taux de satisfaction de tolérance de 12% vs baselines industrielles et académiques.

PapersRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

Framework pour la génération active de graphes de scènes 3D à partir de caméras RGB uniquement, sans capteurs de profondeur. Unifie perception et planification autour d'une représentation structurée. Sur Replica, atteint la parité F1 avec les baselines utilisant la profondeur ground-truth. La sélection de points de vue sémantique détecte 2× plus d'objets qu'une baseline géométrique.

VisionRobotiqueAgents IA
SIG
72
HYP
25
arXiv cs.AI·

Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency

SAGE, un framework d'auto-évolution, améliore le raisonnement spatial des VLMs en appliquant une cohérence logique via des opérations géométriques et linguistiques. Intégré comme étape de post-training GRPO légère, il corrige les incohérences sous transformations prédictibles et montre des gains sur benchmarks vidéo et spatial.

VisionRaisonnementReinforcement learning
SIG
72
HYP
28
arXiv cs.AI·

Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

Article théorique proposant des optimiseurs respectant les symétries des architectures neuronales modernes. Introduit des règles de mise à jour équivariantes pour embeddings, têtes LM, MLPs SwiGLU et routeurs MoE. Validation sur modèles denses et sparse MoE (Qwen3, Gemma 3, OLMoE, gpt-oss) montrant amélioration de la perte de validation vs AdamW.

PapersReinforcement learningBenchmarks
SIG
72
HYP
15
arXiv cs.AI·

Visual Sculpting: Visually-Aligned Planning Representations for Long-Horizon Robot Clay Sculpting

Méthode de planification robotique pour la sculpture sur argile basée sur une représentation alignée visuellement. Le système modélise la dynamique des matériaux déformables en capturant textures et éclairage, permettant une planification long-horizon (>100 actions) sans retraining par objectif. Testé sur trois matériaux avec différents effecteurs.

RobotiqueVisionRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

SENSE est un framework génératif basé sur diffusion qui synthétise conjointement des images satellite urbaines réalistes et des cartes d'énergie/hauteur de bâtiments alignées. Testé sur NYC, Boston, Lyon et Busan, il génère des données annotées avec <20% de données étiquetées, améliorant la performance de prédiction de 10% IoU et réduisant l'erreur de 3-11% NMBE.

Génération d'imagesGénération de codeBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Train the Trainers -- An Agentic AI Framework for Peer-Based Mental Health Support in Battlefield Environments

Framework agentic IA pour soutien psychologique par pairs en environnement militaire. Soldats formés comme facilitateurs pairs supervisent des agents IA spécialisés (triage, interventions, documentation) en settings sans connectivité. Prototype développé avec U.S. Army Health Center. Objectif : réduire évacuations, accélérer prise en charge, maintenir supervision humaine.

Agents IAMulti-agentsSécurité IA
SIG
72
HYP
28
arXiv cs.AI·

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

COOPO est un algorithme d'apprentissage par renforcement hybride offline-online qui alterne entre entraînement offline régularisé par KL et fine-tuning online. Le retour cyclique à l'entraînement offline élimine l'oubli catastrophique et la dérive de distribution. Sur les benchmarks D4RL, COOPO réduit les interactions online tout en améliorant les performances finales.

Reinforcement learningPapersBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course

Étude d'implémentation de Google Notebook LM dans un cours d'anglais académique (106 étudiants, Hong Kong). Génération de vidéos, podcasts et infographies via RAG. Les étudiants ont apprécié les contenus visuels et multimodaux ; la préférence vidéo corrèle positivement avec les résultats académiques. La charge cognitive élevée impacte négativement les notes.

RAGÉvaluationsOutils
SIG
72
HYP
25
arXiv cs.AI·

Reversa: A Reverse Documentation Engineering Framework for Converting Legacy Software into Operational Specifications for AI Agents

Reversa est un framework de rétro-ingénierie documentaire qui convertit les systèmes legacy en spécifications opérationnelles pour agents IA. Un pipeline multi-agents extrait les règles métier implicites, synthétise l'architecture et génère des spécifications traçables avec marquage de confiance. Étude de cas : migration ATM COBOL→Go produisant 517 claims, 10 gaps identifiés et 53 scénarios Gherkin.

Agents IAMulti-agentsGénération de code
SIG
72
HYP
25
arXiv cs.AI·

Position: A Three-Layer Probabilistic Assume-Guarantee Architecture Is Structurally Required for Safe LLM Agent Deployment

Article de position argumentant qu'une architecture à trois couches probabilistes (intent/conformité, validité environnementale, faisabilité dynamique) est structurellement nécessaire pour déployer des agents LLM sûrs. Chaque couche doit certifier indépendamment une dimension de sécurité via des garanties probabilistes composables.

Agents IASécurité IAAlignement
SIG
72
HYP
15
arXiv cs.AI·

BESplit: Bias-Compensated Split Federated Learning with Evidential Aggregation

BESplit propose un cadre de federated learning distribué (SFL) pour atténuer les effets des données non-IID. La méthode combine Evidential Aggregation pour pondérer les contributions clients, Bias-Compensated Collaboration pour aligner les représentations, et Dual-Teacher Distillation pour synchroniser les modèles. Tests sur 5 benchmarks montrent amélioration de précision et stabilité.

AlignementBenchmarks
SIG
72
HYP
18
arXiv cs.AI·

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Vision-OPD propose une auto-distillation régionale-globale pour améliorer la compréhension visuelle fine des MLLMs. Le framework transfère la perception privilégiée du modèle sur des crops centrés sur les preuves vers sa politique pleine image, via minimisation de divergence KL entre distributions de tokens. Résultats compétitifs sur benchmarks de compréhension visuelle fine sans modèles externes ni labels.

VisionReinforcement learningBenchmarks
SIG
72
HYP
18
arXiv cs.CL·

Multilingual OCR-Aware Fine-Tuning and Prompt-Guided Chain-of-Thought Reasoning for Multimodal Large Language Models

Framework de fine-tuning multilingue pour MLLMs combinant génération synthétique OCR-traduction, SFT avec LoRA et chain-of-thought visuel structuré. Améliore significativement l'extraction de texte petit, flou, occludé sur reçus, menus, documents en conditions visuelles dégradées. Surpasse GPT-5 et Gemini sur OCR et hallucinations.

VisionRaisonnementFine-tuning
SIG
72
HYP
28
arXiv cs.AI·

Learning Lifted Action Models from Traces with Minimal Information About Actions and States

Apprentissage de modèles d'actions STRIPS+ levés à partir de traces partielles. Les auteurs relaxent les hypothèses précédentes en permettant une observabilité partielle des actions et états. Trois cas sont formalisés : sans observabilité d'état, avec observabilité complète de certains prédicats, avec observabilité locale. Résultats de complétude et expériences inclus.

RaisonnementPapers
SIG
72
HYP
15