Page 76 sur 149

ToutHaut signalRécent
5935 articles
arXiv cs.AI·

Semantic Smoothing via Novel View Synthesis for Robust SAR Image Classification

Défense contre les perturbations adversariales pour la classification SAR via lissage sémantique. Remplace le bruit isotrope par des transformations géométriques générées par synthèse de nouvelles vues, conditionnées sur la géométrie d'acquisition. Améliore la robustesse contre FGSM, PGD, OTSA, SMGAA tout en augmentant la précision en classification nette.

Sécurité IAVisionÉvaluations
SIG
72
HYP
15
arXiv cs.AI·

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Les modèles de raisonnement long (LRM) génèrent des chaînes de pensée redondantes sans corrélation avec la justesse. L'article découvre que les LRM savent implicitement quand arrêter. SAGE (Self-Aware Guided Efficient Reasoning) exploite cette capacité via un nouveau paradigme d'échantillonnage, améliorant précision et efficacité sur benchmarks mathématiques.

RaisonnementReinforcement learningBenchmarks
SIG
72
HYP
28
arXiv cs.AI·

Online Algorithms with Unreliable Guidance

Nouvel article arXiv présentant OAG (Online Algorithms with Unreliable Guidance), un modèle pour l'apprentissage augmenté en ligne qui sépare composantes prédictives et algorithmiques. Introduit le compilateur DTB (drop-or-trust-blindly) convertissant algorithmes online standards en versions augmentées. Démontre garanties optimales sur matching bipartite, caching et tâches métriques uniformes.

RaisonnementBenchmarksPapers
SIG
72
HYP
15
arXiv cs.AI·

Latency-Aware Deep Learning Benchmark for Real-Time Cyber-Physical Attack and Fault Classification in Inverter-Dominated Power Grids

Benchmark latency-aware pour 8 architectures deep learning (MLPs, Transformers) en détection d'anomalies sur réseaux électriques dominés par onduleurs. Classification en temps réel < 15 ms par cycle, mais latence end-to-end 50-90 ms (3+ cycles). Écart critique entre capacité algorithmique et déploiement protection-grade identifié.

BenchmarksRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course

Étude d'implémentation de Google Notebook LM pour générer vidéos, podcasts et infographies dans un cours d'anglais académique (106 étudiants, Hong Kong). Les étudiants ont apprécié l'utilité perçue et la facilité d'usage ; préférence pour contenus visuels/multimodaux. Corrélation positive entre préférence vidéo et performance académique, mais charge cognitive élevée associée à baisse des notes.

RAGOutilsÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

PluRule: A Benchmark for Moderating Pluralistic Communities on Social Media

PluRule est un benchmark multimodal et multilingue pour la modération de communautés pluralistes sur les réseaux sociaux. Il couvre 13 371 violations de règles dans 1 989 communautés Reddit et 2 885 règles en 9 langues. Les modèles vision-langage de pointe, y compris GPT-4.5 avec raisonnement avancé, ne surpassent que légèrement une baseline triviale, révélant que la modération pluraliste reste un défi fondamental.

BenchmarksVisionSécurité IA
SIG
72
HYP
25
arXiv cs.AI·

General-purpose LLMs as Models of Human Driver Behavior: The Case of Simplified Merging

Étude comparant OpenAI o3 et Google Gemini 2.5 Pro comme modèles de comportement humain au volant dans un scénario de fusion simplifié. Les LLMs reproduisent le contrôle opérationnel intermittent et les dépendances tactiques, mais échouent à capturer les réponses aux indices de vélocité dynamique. Les ablations de prompts révèlent des biais inductifs non transférables entre modèles.

GPTGeminiRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

HAAS: A Policy-Aware Framework for Adaptive Task Allocation Between Humans and Artificial Intelligence Systems

HAAS est un framework pour l'allocation adaptative de tâches entre humains et systèmes IA en ingénierie logicielle et fabrication. Il combine un système expert basé sur des règles de gouvernance avec un apprentissage par bandit contextuel. Les résultats montrent que la gouvernance n'est pas binaire mais un paramètre ajustable : une gouvernance modérée améliore performance et réduit la fatigue en fabrication.

Agents IAMulti-agentsReinforcement learning
SIG
72
HYP
18
arXiv cs.AI·

SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning

SEMA-RAG est un framework multi-agent pour la génération augmentée par récupération (RAG) appliquée au raisonnement médical. Il décompose le processus en trois agents spécialisés : interprétation clinique, exploration itérative de documents, et adjudication des preuves. Testé sur 5 benchmarks et 5 backbones LLM, il améliore les baselines de +6,46 points de précision en moyenne.

Multi-agentsRAGRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Visual Timelines of Police Encounters in Body-Worn Camera Footage: Operational Context and Activity Cataloging for Training and Analysis in OpenBWC

Approche pour traiter les vidéos de caméras corporelles (BWC) en fenêtres de 10 secondes étiquetées selon le contexte opérationnel et l'intensité motrice. Modèles entraînés avec CLIP et optical flow : 78,75% de précision pour le contexte, 88,33% pour l'activité. Protocole respectueux de la vie privée pour accélérer l'analyse et la formation des agents.

VisionBenchmarksSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

VLATIM, un nouveau benchmark basé sur The Incredible Machine 2, évalue les capacités de raisonnement logique des Vision-Language Models dans des jeux de puzzle point-and-click. Les résultats montrent un écart significatif : les grands modèles propriétaires excellent en planification mais échouent en localisation visuelle précise, sans atteindre les capacités humaines.

VisionRaisonnementBenchmarks
SIG
72
HYP
25
arXiv cs.AI·

Causal Bias Detection in Generative Artificial Intelligence

Article arXiv proposant un cadre théorique pour détecter les biais causaux dans les modèles génératifs IA. Les auteurs formalisent la notion de fairness causale spécifique aux modèles génératifs (vs ML classique), dérivent des décompositions causales pour quantifier les impacts de biais selon différents chemins causaux, et démontrent leur méthodologie en analysant les biais de race et genre dans les LLM.

PapersSécurité IAAlignement
SIG
72
HYP
15
arXiv cs.AI·

Privacy Policy Enforcement Guardrails for Data-Sensitive Retrieval-Augmented Generation

Un framework PPE utilise des estimateurs de densité one-class avec embeddings textuels fusionnés pour détecter les fuites de données contextuelles dans les systèmes RAG. Le détecteur T3+OCSVM atteint 0.93+ AUROC, réduit les faux positifs de 44-55 points et maintient une latence millisecondes, surpassant les classifieurs MLP supervisés et les juges LLM 14B.

RAGSécurité IAEmbeddings
SIG
72
HYP
18
arXiv cs.AI·

When Dynamics Shift, Robust Task Inference Wins: Offline Imitation Learning with Behavior Foundation Models Revisited

Les Behavior Foundation Models (BFMs) permettent l'apprentissage par imitation à grande échelle, mais échouent sous les changements de dynamique (friction, actuation, bruit). Cet article formule l'inférence de tâche BFM comme un problème d'optimisation minimax robuste, permettant l'adaptation aux perturbations de dynamique sans modifier le préentraînement. Le cadre surpasse les baselines BFM et offline IL robustes.

Reinforcement learningPapersÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Revisiting Long-term Time Series Forecasting: An Investigation on Linear Mapping

Étude arXiv sur la prévision de séries temporelles long-terme (LTSF). Les auteurs montrent qu'une simple couche linéaire (affine mapping) domine les performances sur les benchmarks standards. L'analyse révèle que les modèles apprennent des matrices de transition similaires, capturent bien les motifs périodiques mais échouent sur les signaux non-périodiques. Code disponible.

BenchmarksPapersRaisonnement
SIG
72
HYP
15
arXiv cs.AI·

Agents for Experiments, Experiments for Agents: A Design Grammar for AI-Enabled Experimental Science

SEED est un framework qui représente les conditions expérimentales en graphes d'acteurs typés pour étudier les systèmes multi-agents et workflows humain-IA. Il permet de décrire les conditions, évaluer la nouveauté structurelle et générer des designs candidats sous contraintes. Test empirique sur triage médical montre que SEED-guided designs offrent meilleure traçabilité des changements d'interaction et gouvernance.

Agents IAMulti-agentsÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

SAFE-SVD: Sensitivity-Aware Fidelity-Enforcing SVD for Physics Foundation Models

SAFE-SVD propose une méthode de compression pour les modèles fondamentaux de physique (PFM) qui préserve la fidélité physique. La technique modélise la sensibilité des couches dans l'espace fonctionnel de sortie, évitant la dégradation sévère des performances causée par les méthodes conventionnelles. Les expériences montrent des gains substantiels en ratios de compression tout en maintenant la précision.

PapersBenchmarksInfrastructure
SIG
72
HYP
28
arXiv cs.AI·

Latent Action Control for Reasoning-Guided Unified Image Generation

LAC (Latent Action Control) rend le raisonnement actionnable dans les modèles génératifs unifiés en représentant la planification et le diagnostic comme des actions latentes continues. Intégré à BAGEL-7B-MoT, LAC améliore la génération compositionnelle et fondée sur les connaissances via alignement variationnel et GRPO, avec gains majeurs sur les relations spatiales et les liaisons d'attributs.

Génération d'imagesRaisonnementGénération de code
SIG
72
HYP
25
arXiv cs.AI·

Uncertainty Quantification as a Principled Foundation for Explainable Artificial Intelligence: A Case Study of Counterfactual Explanations

Article arXiv proposant une approche d'explicabilité par contrefactuels fondée sur la quantification d'incertitude. Les auteurs démontrent que l'intégration de concepts fondamentaux de l'IA (notamment l'incertitude) améliore la robustesse et la fiabilité des explications, avec performances compétitives malgré une conception simple.

SIG
72
HYP
18
arXiv cs.AI·

Metric-Guided Feature Fusion of Visual Foundation Models for Segmentation Tasks

Approche de fusion guidée par métriques pour combiner les caractéristiques complémentaires de modèles de fondation visuels (SAM2, DINOv3) dans les tâches de segmentation dense. Deux métriques sans labels (Cohérence Structurelle, Fidélité des Contours) évaluent les encodeurs et sélectionnent les paires complémentaires. Gains de performance constants sur plusieurs tâches sans modifications architecturales complexes.

VisionBenchmarksOpen source
SIG
72
HYP
18
arXiv cs.CL·

Beyond Neural Incompatibility: Cross-Scale Knowledge Transfer in Language Models through Latent Semantic Alignment

SemAlign propose un mécanisme de transfert de connaissance entre modèles de langage de tailles différentes via alignement sémantique latent. Au lieu de copier directement les paramètres, la méthode utilise les activations comme médium de transfert, en appairant couches source et cible et en optimisant via supervision sémantique. Évaluée sur quatre benchmarks.

Fine-tuningRaisonnementPapers
SIG
72
HYP
18
arXiv cs.AI·

Content-Style Identification via Differential Independence

Nouvel article arXiv proposant CSDI (content-style differential independence) pour identifier les facteurs de contenu et style dans les modèles génératifs multi-domaines. Relaxe les conditions d'indépendance statistique antérieures via une contrainte d'orthogonalité sur les sous-espaces jacobiens. Démontre l'identifiabilité même avec contenu/style dépendants et jacobien dense.

PapersGénération d'imagesRaisonnement
SIG
72
HYP
15
arXiv cs.CL·

T-FIX: Text-Based Explanations with Features Interpretable to eXperts

T-FIX est un cadre d'évaluation pour mesurer l'alignement des explications générées par les LLM avec le raisonnement d'experts dans des domaines spécialisés (chirurgie, astronomie, thérapie). Couvre sept tâches scientifiques sur trois domaines avec critères définis par des experts. Permet une évaluation automatique et généralisable sans annotation continue d'experts.

ÉvaluationsRaisonnementSécurité IA
SIG
72
HYP
18