mai 2026

3149 articles

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

VideoDR est le premier benchmark pour le video question answering en domaine ouvert, combinant extraction visuelle multi-frames, récupération web itérative et raisonnement multi-hop. L'évaluation de modèles multimodaux (closed/open-source) montre que le paradigme Agentic n'est pas systématiquement supérieur au Workflow; les défis clés sont la dérive d'objectif et la cohérence long-horizon.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception

Speech-Hands est un framework vocal agentic qui apprend à décider quand faire confiance à ses prédictions ou consulter des perceptions audio externes. Le modèle réduit le WER de 12,1% sur 7 benchmarks OpenASR et atteint 77,37% de précision en audio QA, en utilisant un mécanisme d'auto-réflexion pour éviter les hypothèses bruitées.

Agents IA Voix Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

"The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework

COMPACT, un framework de distillation CoT multi-enseignants, fusionne adaptativement les supervisions de plusieurs LLMs vers des modèles compacts. Il pondère dynamiquement les gradients des enseignants via trois métriques : consensus basé graphe, adaptabilité par information mutuelle, et difficulté basée perte. Résultats SOTA sans oubli catastrophique.

Raisonnement Fine-tuning Papers

SIG

HYP

arXiv cs.CL·19 mai

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Les chercheurs proposent IBPO (Implicit Behavior Policy Optimization), une méthode de credit assignment pour l'apprentissage par renforcement avec LLM. En comparant plusieurs trajectoires de raisonnement, le framework transforme les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks mathématiques et de code.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

OmniCode: A Benchmark for Evaluating Software Engineering Agents

OmniCode est un benchmark pour évaluer les agents IA dans les tâches d'ingénierie logicielle. Il contient 1794 tâches en Python, Java et C++ couvrant correction de bugs, génération de tests, révision de code et correction de style. Les évaluations montrent que SWE-Agent atteint seulement 25% sur la génération de tests en C++ avec DeepSeek-V3.1.

Benchmarks Génération de code Agents IA

SIG

HYP

arXiv cs.CL·19 mai

Protection Is (Nearly) All You Need: Structural Protection Dominates Scoring in Globally Capped KV Eviction

Étude des politiques d'éviction KV cache (LRU, H2O, SnapKV, StreamingLLM, Ada-KV, QUEST, Random) sous contrainte globale. Sans protection structurelle aux frontières, toutes s'effondrent (F1≤0.064). Réserver 10% du cache à chaque limite restaure 69–90% de qualité sur LongBench avec C=256 (13% rétention). La position-0 concentre ~75% de l'attention; protection des tokens critiques domine le scoring.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Multi-layer Cross-attention is Provably Optimal for Multi-modal In-context Learning

Étude théorique montrant que l'attention croisée multi-couche est optimale pour l'apprentissage en contexte multi-modal. Les auteurs prouvent que l'auto-attention linéaire monocouche échoue, mais qu'un mécanisme d'attention croisée linéarisé atteint la performance Bayes-optimale avec gradient flow.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

SuReNav: Superpixel Graph-based Constraint Relaxation for Navigation in Over-constrained Environments

SuReNav propose une méthode de navigation basée sur graphes de superpixels pour les environnements sur-contraints. Le système combine génération de cartes avec contraintes régionales, relaxation via réseau de neurones entraîné sur démonstrations humaines, et exécution entrelacée. Évalué sur cartes 2D/3D OpenStreetMap et robot Spot, il atteint le meilleur score de ressemblance humaine.

Agents IA Robotique Papers

SIG

HYP

arXiv cs.AI·19 mai

GRAFT: Decoupling Ranking and Calibration for Survival Analysis

GRAFT est un modèle AFT hybride pour l'analyse de survie qui découple le classement pronostique de l'étalonnage des estimations. Il combine un modèle AFT linéaire avec un réseau résiduel non-linéaire et des portes stochastiques pour la sélection de features. Entraîné sur une perte alignée C-index avec imputation conditionnelle, il surpasse les baselines en discrimination et calibration.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

WASIL: In-the-Wild Arabic Spoken Interactions with LLMs

WASIL est un dataset d'interactions vocales arabes en conditions réelles avec des LLMs : 8 529 tours avec audio, hypothèses ASR, réponses d'assistant et feedback like/dislike (14,2% dislikes). Inclut 2 000 tours de test couvrant l'arabe standard et 4 dialectes majeurs. Annotations d'answerabilité pour isoler les erreurs ASR des limitations intrinsèques.

Voix Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Perception-based Image Denoising via Generative Compression

Article proposant un cadre de compression générative pour le débruitage d'images basé sur la perception. Deux approches : un débruiteur WGAN conditionnel contrôlant le compromis rate-distortion-perception, et une stratégie de reconstruction par diffusion itérative guidée par des latents compressés. Garanties théoriques et améliorations perceptuelles validées sur benchmarks.

Génération d'images Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

OptimusVLA, un modèle Vision-Langage-Action hiérarchique, améliore la manipulation robotique via deux mémoires : Global Prior Memory (remplace le bruit gaussien par des priors de trajectoires similaires) et Local Consistency Memory (assure la cohérence temporelle). Résultats : 98.6% sur LIBERO, +13.5% vs pi_0 sur CALVIN, 2.9x plus rapide en inférence.

Vision Robotique Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving

Étude systématique des modèles de diffusion pour la conduite autonome de bout en bout (E2E AD). Le framework Hyper Diffusion Planner (HDP) atteint une amélioration de performance de 10x sur le modèle de base, testé sur 200 km en conditions réelles et 6 scénarios urbains. Intègre post-training par renforcement pour améliorer sécurité et robustesse.

Reinforcement learning Robotique

SIG

HYP

arXiv cs.AI·19 mai

Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models

SurgUn, une méthode d'oubli de concepts pour modèles de diffusion texte-image, traite l'oubli comme une compétition contrôlée plutôt qu'une suppression directe. Via gradient ascendant sur cibles et descent sur distracteurs sémantiquement divers, elle réduit l'imbalance erase-retain et limite les dégâts collatéraux. Testée sur Stable Diffusion v1.5, SDXL et SANA-1.5.

Génération d'images Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Les boucles d'auto-évolution des LLM stagnent quand elles ne génèrent pas d'information apprenable. Cette étude identifie trois rôles (Proposer, Solver, Verifier) et trois designs système (co-évolution asymétrique, croissance de capacité, recherche proactive d'information) pour maintenir le gain d'information à travers les itérations sur des tâches de codage.

Raisonnement Reinforcement learning Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

History-Echoes analyse comment l'historique conversationnel biaise les réponses futures des LLM. Via modélisation Markovienne et analyse géométrique des représentations cachées, les auteurs démontrent que la persistance comportementale crée un « piège géométrique » dans l'espace latent. Code disponible.

Raisonnement Évaluations Alignement

SIG

HYP

arXiv cs.AI·19 mai

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Med-V1 est une famille de modèles de langage de 3 milliards de paramètres entraînés sur des données synthétiques pour l'attribution d'évidences biomédicales. Elle surpasse ses modèles de base de +27% à +71% sur cinq benchmarks et rivalise avec GPT-5, tout en détectant les hallucinations et les erreurs d'attribution dans les directives cliniques.

Benchmarks Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization

Approche d'adaptation de vocabulaire pour améliorer l'efficacité des LLM sur des domaines spécialisés (légal, médical). Combine adaptation du tokenizer avec préentraînement sélectif sur Llama-3.1-8B et Qwen2.5-7B. Réduit temps d'entraînement de 35-55% et paramètres de 37% vs méthodes d'expansion seule.

Llama Qwen Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

Toward Template-Free Explainability for Monte Carlo Tree Search

Framework utilisant des LLM pour générer des explications de décisions MCTS à partir de traces de recherche, sans contraintes logiques manuelles. Mappe les questions en langage naturel à des catégories d'intent, déclenche expansions ciblées si nécessaire, et produit explications basées sur statistiques d'arbre (visites, estimations de valeur, risque).

Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

No Plan, Yet Human: A Reactive Robotics Model Predicts Human Planning Failures on a Clinical Task

AICON, un modèle réactif de robotique basé sur la descente de gradient, prédit mieux que les modèles de planification les erreurs humaines sur la Tour de Londres (test cognitif). Sans lookahead, il reproduit l'ordre de difficulté des 24 problèmes et échoue comme les patients atteints de la maladie de Parkinson, suggérant que la capacité de planification réduite bascule vers un mode réactif.

Robotique Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

\textsc{MasFACT}: Continual Multi-Agent Topology Learning via Geometry-Aware Posterior Transfer

MasFACT propose un cadre de transfert de posterior géométriquement conscient pour les systèmes multi-agents LLM. Il résout le problème de « topology forgetting » en préservant les structures de collaboration historiques lors de l'adaptation à de nouvelles tâches, via transport optimal Gromov-Wasserstein et adaptation PAC-Bayes conservative.

Multi-agents Agents IA Llama

SIG

HYP

arXiv cs.AI·19 mai

Single-Sample Black-Box Membership Inference Attack against Vision-Language Models via Cross-modal Semantic Alignment

Nouvelle attaque d'inférence d'appartenance (MIA) contre les modèles vision-langage en boîte noire et single-sample. Exploite l'alignement sémantique cross-modal : les images d'entraînement montrent un alignement image-caption plus fort que les non-membres. Atteint AUC 0.821 contre LLaVA-1.5 sur VL-MIA/Flickr.

Vision Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

OmniVL-Guard Pro: A Tool-Augmented Agent for Omnibus Vision-Language Forensics

OmniVL-Guard Pro est un agent augmenté d'outils pour la détection de contrefaçons vision-langage en monde ouvert. Il intègre recherche d'événements temps réel, détection de visages, extraction de frames vidéo et segmentation SAM3. Un dataset FSTR et un entraînement par RL supervisé (CGARL) améliorent le raisonnement multi-étapes.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Policy-Grounded Dynamic Facet Suggestions for Job Search

LinkedIn présente un système de suggestions de facettes dynamiques pour affiner les requêtes de recherche d'emploi. 80% des requêtes contiennent ≤3 mots-clés. Le système combine récupération sémantique, modèle de langage distillé et scoring en temps réel pour désambiguïser l'intention utilisateur. Tests A/B en ligne montrent des améliorations significatives.

RAG Embeddings Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Strategic Over-Parameterization for Generalizable Low-Rank Adaptation

LoRA-Over améliore l'adaptation efficace en paramètres (PEFT) en enrichissant le paysage d'optimisation durant l'entraînement via sur-paramétrisation auxiliaire, puis en repliant cette enrichissement dans une structure LoRA standard à l'inférence. Évalué sur GLUE, MT-Bench, GSM8K et HumanEval avec LLaMA 2-7B et 3.1-8B, le framework surpasse LoRA vanilla sans coût d'inférence supplémentaire.

Fine-tuning Llama Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

LPG: Balancing Efficiency and Policy Reasoning in Latent Policy Guardrails

LPG (Latent Policy Guardrail) est un framework de sécurité pour LLM qui adapte les politiques de sécurité à l'inférence sans réentraînement. Il compresse le raisonnement en 10 tokens latents, atteint 84,5% de précision et 77,9% F1 sur les benchmarks, tout en étant 11× plus rapide que Qwen3-4B-Thinking.

Sécurité IA Alignement Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

MHMamba: Multi-Head Mamba for 3D Brain Tumor Segmentation

MHMamba combine une architecture U-Net avec un modèle state-space multi-tête (Mamba) pour la segmentation 3D de tumeurs cérébrales en IRM. La méthode maintient la complexité linéaire de Mamba tout en améliorant la modélisation des dépendances longue portée et la stabilité multimodale. Tests sur BraTS2021/2023 montrent gains en précision, cohérence des contours et détection des petites lésions.

Vision Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

Étude de l'alignment drift : processus graduel où les sorties LLM deviennent moins contraintes par le message utilisateur actuel et plus façonnées par l'historique d'interaction, tout en restant cohérentes. Cadre mécaniste proposé distinguant signaux A/B, expliquant boucles de rétroaction et sélection de sous-motifs sur trois régimes interactionnels.

Alignement Sécurité IA Papers

SIG

HYP

arXiv cs.AI·19 mai

Asking Back: Interaction-Layer Antidistillation Watermarks

Nouvelle approche de watermarking contre la distillation non autorisée d'LLM : des marqueurs comportementaux (questions de suivi, variantes basse fréquence, reformulations) injectés via prompt système. Testée sur 63 modèles LoRA distillés de Llama-3.3-70B, avec transfert de 88,9% (Gemma) à 45,2% (Qwen). Robustesse validée contre paraphrasage DIPPER et étude utilisateur (N=20) confirmant l'imperceptibilité.

Sécurité IA Alignement Llama

SIG

HYP

arXiv cs.AI·19 mai

Conservative AI for Safety-Sensitive Medical Image Restoration: Residual-Bounded CT-CTA Enhancement for Intracranial Aneurysm-Relevant Signal Recovery

Framework de restauration d'images médicales 2.5D avec résidus bornés pour améliorer les CT/CTA intracrâniens sans modifier les régions cliniquement sensibles. Le modèle ajoute un résidu appris via une carte de contrôle d'édition limitant magnitude et étendue spatiale. Sur 50 cas hors-distribution : PSNR 37.51 dB, taux d'édition iatrogène 4.0%, stabilité positive en 85.4% des 1000 runs Monte Carlo.

Vision Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Efficient Feature-Free Initialization for Monocular Visual-Inertial Systems Using a Feed-Forward 3D Model

Méthode d'initialisation sans features pour systèmes visuels-inertiels monoculaires (VINS) utilisant des modèles 3D feed-forward. Réduit le temps d'initialisation à <1.2s (vs 3-4s), atteint >90% de taux de succès, élimine le suivi de features visuelles. Code et dataset disponibles.

Vision Robotique Open source

SIG

HYP

arXiv cs.AI·19 mai

Physics-Guided Geometric Diffusion for Macro Placement Generation

MacroDiff+ est un framework de diffusion géométrique guidé par la physique pour l'optimisation du placement de macros en conception VLSI. Utilisant une architecture dual-domain (GNN hétérogènes + Transformer) et un échantillonnage guidé par gradients physiques, il réduit la longueur de fil de 6.1-6.2% sur les benchmarks ISPD2005 avec meilleure stabilité sur designs large-scale.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Nested Spatio-Temporal Time Series Forecasting

Méthode de prévision spatio-temporelle imbriquée couplant tendances régionales macro et observations historiques micro. Utilise clustering spectral pour construire régions sémantiquement cohérentes, réduisant le bruit systématique. Prédicteur coarse-to-fine intègre ces features pour anticiper anomalies dynamiques. Surpasse baselines sur datasets haute-dimensionnalité.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Avoiding Structural Failure Modes in Tabular Fair SSL: Online Primal-Dual Allocation under Confidence Gating

Article arXiv identifiant deux modes de défaillance structurels en apprentissage semi-supervisé équitable sur données tabulaires : Masking Collapse et Trivial Saturation. Propose OPDA (Online Primal-Dual Allocation), un contrôleur adaptatif qui ajuste dynamiquement les pénalités d'équité sans tuning par dataset. Évalué sur Adult, ACSIncome, COMPAS.

Papers Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Improving MLLM Training Efficiency via Stage-Aware Sparsity

Sparse Training Scheme (STS) améliore l'efficacité d'entraînement des MLLMs via compression adaptative des tokens visuels et saut dynamique de couches. Le framework réduit la redondance computationnelle variable selon les étapes d'entraînement, applicable à plusieurs architectures MLLM.

Vision Fine-tuning Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Two-Valued Symmetric Circulant Matrices: Applications in Deep Learning

Papier proposant les matrices circulantes symétriques à deux valeurs (TVSCM) pour réduire drastiquement les paramètres des réseaux de neurones. Atteint 80× réduction (623k→7.8k paramètres sur MNIST) avec perte mineure de précision (97.6%→93.5%). Conçu pour edge computing et systèmes embarqués.

Fine-tuning Infrastructure Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

DeepArrhythmia: Segment-Contextualized ECG Arrhythmia Classification via Selective Evidence Acquisition

DeepArrhythmia est un framework multimodal pour la classification d'arythmies ECG au niveau du battement cardiaque. Il combine signal brut et image de forme d'onde, localise les pics R, et utilise des outils spécialisés pour l'extraction de rythme et morphologie. Le système route sélectivement entre états de preuve minimal et riche selon la confiance au niveau du segment.

Agents IA Vision MCP

SIG

HYP

arXiv cs.AI·19 mai

L-Drive: Beyond a Single Mapping-Latent Context Drives Time Series Forecasting

L-Drive propose un cadre de prévision de séries temporelles multivariées sensible aux changements de régime. Le modèle introduit un contexte latent pour caractériser la dynamique et utilise des fonctions de position relative pour améliorer la modélisation structurelle intra-segment, réduisant ainsi l'accumulation d'erreurs aux points de basculement.

Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Injection de brouillons mathématiquement incorrects d'un petit modèle (Qwen2.5-Math-1.5B) dans l'entraînement GRPO d'un modèle plus fort (Mathstral-7B) améliore les performances sur MATH-500 (+1.62pp) et AIME 2025/2026 (+14.2pp à pass@1024). Le décalage intentionnel entre problèmes et brouillons est crucial : 71.98% sur MATH-500, meilleur résultat publié pour ce modèle.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Byzantine-Resilient Federated Learning via QUBO-Based Client Selection on Quantum Annealers

Approche de recuit quantique pour sélectionner les clients fiables en apprentissage fédéré face aux attaques byzantines. Reformulation en problème QUBO résolvant conjointement les sous-ensembles de clients les plus proches. MultiSignal (ensemble hybride) atteint 95,3% de détection à 100 clients sur MNIST vs 91,8% pour MultiKrum classique.

Sécurité IA Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Edge-AI-Driven Learning-to-Rank for Decentralized Task Allocation in Circular Smart Manufacturing

Framework de allocation de tâches décentralisée pour la fabrication circulaire, utilisant l'Edge-AI et un apprentissage basé sur le ranking. Chaque machine évalue les tâches avec ses informations locales (capacité, queue, contention). Résultats : réduction des délais, meilleure adhérence aux deadlines, efficacité énergétique améliorée en simulation.

Agents IA Reinforcement learning Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

Deep Reinforcement Learning Framework for Diversified Portfolio Management Across Global Equity Markets

Framework de deep reinforcement learning pour allocation dynamique de portefeuille sur marchés actions globaux. Soft Actor-Critic optimise les poids continus avec coûts de transaction et contraintes de diversification. Évaluation sur Nasdaq-100, Nikkei 225, Euro Stoxx 50 (2003-2026) : rendements anormaux significatifs sur Euro Stoxx 50, mais pas de surperformance statistique vs Buy and Hold sur tous les marchés.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

A Theory of Training Profit-Optimal LLMs

Modèle économique combinant lois de scaling et théorie microéconomique pour caractériser le comportement rationnel des entreprises d'entraînement LLM. Analyse la maximisation du profit en régimes compute-bound et data-bound : en compute-bound, la taille optimale suit l'efficacité matérielle (FLOPs/$) à taux quasi-linéaire ; en data-bound, les dépenses d'entraînement optimales évoluent en D²/E.

Benchmarks Papers Business

SIG

HYP

arXiv cs.AI·19 mai

The Impact of AI Search on the Online Content Ecosystem: Evidence from Google and Reddit

Étude empirique sur l'impact des Google AI Overviews sur Reddit. Utilisant une stratégie d'identification basée sur la politique de modération (communautés SFW vs NSFW), les auteurs trouvent que les AI Overviews augmentent l'engagement dans les communautés SFW de +12% (commentaires) et +12.3% (utilisateurs), mais seulement pour le contenu expérientiel. L'introduction du Google AI Mode élimine ces gains.

DeepMind Benchmarks Business

SIG

HYP

arXiv cs.AI·19 mai

CarbonScaling: Extending Neural Scaling Laws for Carbon Footprint in Large Language Models

CarbonScaling est un framework analytique pour modéliser les émissions carbone lors de l'entraînement de LLMs à grande échelle. Il intègre les lois de scaling neural, les stratégies d'entraînement distribué, la modélisation du matériel et du carbone opérationnel/incorporé. Le code source est disponible sur GitHub.

Benchmarks Papers Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

When Efficiency Backfires: Cascading LLMs Trigger Cascade Failure under Adversarial Attack

Les systèmes en cascade d'LLM, conçus pour optimiser efficacité et performance en routant les requêtes complexes vers des modèles puissants, sont vulnérables aux attaques adversariales ciblées. Une nouvelle attaque exploite les modèles légers et les mécanismes de décision interne pour dégrader simultanément la précision et l'efficacité des coûts.

Sécurité IA Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

CLAP: Contrastive Latent-space Prompt Optimization for End-to-end Autonomous Driving

CLAP optimise des prompts dans l'espace latent de modèles Vision-Language-Action pour améliorer la conduite autonome en situations critiques rares. Via apprentissage contrastif et régularisation directionnelle, la méthode réduit l'erreur de planification de 24% sur scènes difficiles (NAVSIM) sans régression sur cas normaux.

Vision Prompt engineering Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Agentic Pipeline for Self-Synchronized Multiview Joint Angle Monitoring in Uncalibrated Environments

Pipeline agentic pour suivi d'angles articulaires multi-vue sans calibrage en environnements non contrôlés. Utilise deux caméras, synchronisation automatique par LLM multimodal, détection de pose 2D et sélection basée agent pour identifier le sujet cible. Validation contre système Vicon : MAE 5.97° ± 2.36°, corrélation Pearson 0.962 ± 0.014. Application : réhabilitation patients lésion médullaire.

Agents IA Vision Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

CAVE: A Structured Credit Assignment Approach for Fragmented Visual Evidence Reasoning

CAVE est une méthode d'attribution de crédit basée sur GRPO pour améliorer le raisonnement visuel fragmenté dans les VLMs. Elle évalue les étapes intermédiaires via trois signaux : mise à jour des croyances, acquisition de preuves et contrôle adaptatif du focus. TRACER-Bench, un nouveau benchmark, évalue le raisonnement sur quatre dimensions non-locales et sémantiquement confusables.

Vision Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

How Loud Rumbles Hit Newsstands: A Data Analysis of Coverage and Spatial Bias in German News about Landslides Around the World

Analyse de 60k articles allemands sur 5.5k événements de glissements de terrain sur 25 ans. Révèle une surreprésentation médiatique de l'Europe du Sud et de l'Ouest par rapport à la susceptibilité réelle aux glissements. Étude des biais spatiaux dans la couverture des catastrophes naturelles internationales.

Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

STRIDE-AI: A Threat Modeling Framework for Generative AI Security Assessment

STRIDE-AI est un framework de threat modeling pour évaluer la sécurité des systèmes IA générative. Il comble le fossé entre les standards NIST AI RMF et OWASP LLM Top 10, définit un cycle d'évaluation en 6 phases, et s'opérationnalise via un outil web. Une validation sur un chatbot LLM déployé réduit le taux de succès des attaques de 80% à 15%.

Sécurité IA Alignement Régulation

SIG

HYP

arXiv cs.AI·19 mai

Trajectory-Aware Adaptive Inference in Object Detection Models

Méthode d'inférence adaptative pour YOLOv8 en navigation maritime autonome. Un mécanisme d'early-exit utilise les données GPS de trajectoire (distances inter-navires, vitesses de convergence) pour activer partiellement le réseau. Réduit temps d'inférence et coûts computationnels tout en maintenant la performance de détection.

Génération de code Évaluations Vision

SIG

HYP

arXiv cs.AI·19 mai

DARE-EEG: A Foundation Model for Mining Dual-Aligned Representation of EEG

DARE-EEG est un modèle fondation auto-supervisé pour l'EEG qui apprend des représentations invariantes aux observations incomplètes via alignement dual (mask alignment + anchor alignment). Évalué sur plusieurs benchmarks EEG, il atteint l'état de l'art avec faible complexité paramétrique et meilleure portabilité cross-dataset.

Papers Benchmarks Embeddings

SIG

HYP

arXiv cs.AI·19 mai

JSON-Bag: A generic game trajectory representation

JSON-Bag tokenise les descriptions JSON de trajectoires de jeu et utilise la distance Jensen-Shannon pour les comparer. Testé sur 6 jeux de plateau (7 Wonders, Dominion, Connect4, etc.), le modèle surpasse les baselines sur la classification d'agents, paramètres et seeds. Efficace en few-shot et permet l'extraction automatique de features.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Overcoming the Intrinsic Performance Limitations of MEMS IMU via Diffusion-Based Generative Learning

Un modèle de diffusion conditionnel basé sur U-Net synthétise des données IMU virtuelles haute fidélité à partir de capteurs IMU bas coût. Entraîné sur des mesures IMU haut de gamme comme références, le modèle améliore significativement la précision en positionnement et estimation d'attitude, et produit des nuages de points plus fins en cartographie aérienne.

Vision Robotique

SIG

HYP

arXiv cs.AI·19 mai

Haptic Rendering of Fractional-Order Viscoelasticity: Passivity and Rendering Fidelity

Article sur le rendu haptique de matériaux viscoélastiques fractionnaires. Les auteurs dérivent des conditions de passivité pour les modèles SLS (Standard Linear Solid) d'ordre fractionnaire sous discrétisation à mémoire courte, généralisant les résultats pour modèles Kelvin-Voigt, Maxwell et SLS entiers. Validations expérimentales et évaluations humaines incluses.

Papers Robotique

SIG

HYP

arXiv cs.AI·19 mai

Mutual Enhancement Between Global Tokens and Patch Tokens: From Theory to Practice

TaTok propose une tokenization adaptative d'images basée sur l'entropie informationnelle. Le framework introduit des tokens globaux modélisant l'information mutuelle entre patch tokens et un algorithme de filtrage dynamique éliminant la redondance. Résultats : amélioration gFID de 1.3x et accélération d'inférence de 8.7x.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

A neurosymbolic Approach with Epistemic Deep Learning for Hierarchical Image Classification

Framework neurosymbolic combinant Swin Transformers, focal set reasoning et logique floue différentiable pour la classification d'images hiérarchiques. Capture l'incertitude épistémique via des focal sets dans l'espace d'embedding et applique des contraintes logiques via fonctions d'appartenance floue pour assurer la cohérence entre prédictions fines et grossières.

Vision Raisonnement Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

StreamPro: From Reactive Perception to Proactive Decision-Making in Streaming Video

StreamPro introduit StreamPro-Bench, un benchmark évaluant la compréhension proactive de vidéos en streaming selon trois axes : perception, raisonnement temporel et agentivité. Le framework propose une perte CB-Stream pour équilibrer l'imbalance de supervision et applique GRPO avec récompenses multi-niveaux. Résultats : 41.5 sur StreamPro-Bench vs 10.4 précédemment, 78.9 sur StreamingBench-RTVU.

Vision Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics

ManiSoft est un benchmark pour la manipulation vision-langage avec bras robotiques souples. Il inclut un simulateur couplant dynamiques soft-body réalistes et interactions contact-riches, 4 tâches de contrôle déformable, et 6 300 scènes avec trajectoires expertes. Les tests de 3 modèles révèlent des performances prometteuses en scènes nettes mais dégradation substantielle sous randomisation.

Vision Robotique Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Lost or Hidden? A Concept-Level Forgetting in Supervised Continual Learning

Étude du forgetting en continual learning via Sparse Autoencoders (SAEs). Les auteurs proposent un cadre diagnostic pour analyser comment l'information spécifique aux tâches évolue au niveau des concepts latents. Résultat : une grande partie du forgetting apparent est due à une perte d'accessibilité représentationnelle plutôt qu'à une suppression complète d'information.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Cross-Source Supervision for Bone Infection Segmentation in Dual-Modality PET-CT

Méthode de segmentation des infections osseuses en imagerie PET-CT bimodale avec fusion précoce. Framework avec apprentissage dual-source sur annotations d'experts indépendants (haute sensibilité vs haute spécificité). Évaluation volumétrique 3D au niveau patient pour éviter les biais inter-tranches.

Vision Évaluations Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

GeoSym127K: Scalable Symbolically-verifiable Synthesis for Multimodal Geometric Reasoning

GeoSym127K est un dataset de 127K questions géométriques avec vérités symboliques exactes, généré par un moteur neuro-symbolique automatisé. Fine-tuning sur Qwen3-VL-8B : +22.21% sur MathVerse Vision-Only, 61.52% sur WeMath. RLVR via GRPO améliore encore les performances.

Benchmarks Vision Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

WASIL: In-the-Wild Arabic Spoken Interactions with LLMs

WASIL est un dataset de 8 529 tours d'interactions vocales en arabe avec des LLMs, incluant audio, hypothèses ASR, réponses et retours utilisateur (14,2% de dislikes). Couvre l'arabe standard et 4 dialectes majeurs. Permet d'isoler les erreurs ASR des problèmes d'answerabilité intrinsèque via annotation et évaluation multi-juge.

Voix Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

Les chercheurs formalisent le steering d'activation (contrôle d'LLM sans réentraînement) comme optimisation sous contrainte budgétaire. Ils introduisent la « granularité conceptuelle » pour expliquer pourquoi certains concepts sont coûteux à contrôler, et proposent GRACE, un framework qui utilise la géométrie d'activation pour diagnostiquer les difficultés et réduire de 39,8% les évaluations nécessaires.

Raisonnement Alignement Papers

SIG

HYP

arXiv cs.AI·19 mai

LEAF: A Living Benchmark for Event-Augmented Forecasting

LEAF est un benchmark vivant pour évaluer les capacités de prévision des LLM en utilisant des événements multidimensionnels. Le système utilise des agents de récupération récursive et une validation croisée multi-agents pour fournir du contexte textuel aux modèles. Les tests montrent que les LLM exploitent les signaux d'événements complexes pour améliorer les prévisions boursières.

Benchmarks Agents IA Multi-agents

SIG

HYP

arXiv cs.AI·19 mai

Learning Displacement-Aware WiFi Representations for Weakly Supervised Relative Localization

Méthode de localisation relative par WiFi sans annotation dense. Intersection Pathway aligne traces de fingerprint WiFi et vecteurs de mouvement inertiel dans un espace latent additif, permettant l'inférence directe de déplacement relatif. Validation sur données synthétiques dérivées de mesures réelles.

Reinforcement learning Embeddings

SIG

HYP

arXiv cs.AI·19 mai

Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need?

Article arXiv proposant un cadre formel pour combiner évaluations LLM et humaines. Utilise un estimateur doublement robuste (missing data) pour déterminer le nombre optimal d'évaluations humaines nécessaires en validation de benchmarks, plutôt que de substituer les humains par des LLM.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

DiPRL: Learning Discrete Programmatic Policies via Architecture Entropy Regularization

DiPRL propose une méthode d'apprentissage par renforcement programmatique qui génère des politiques discrètes interprétables sans étape de discrétisation post-hoc. Via régularisation d'entropie architecturale, le modèle converge vers des programmes discrets pendant l'entraînement, évitant la perte de performance et la nécessité d'ajustement fin supplémentaire.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

How Do Electrocardiogram Models Scale?

Étude systématique des lois de scaling pour modèles ECG : 120 modèles (20K-200M paramètres) pré-entraînés sur CODE (2.3M records). Les modèles SSL surpassent SL en généralisation hors-distribution ; ResNets 1.3-2.5× plus efficaces en paramètres que Transformers ; SSL 16× plus efficace en données. L'architecture et le paradigme importent plus que la taille brute.

Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

State-of-the-Art Claims Require State-of-the-Art Evidence

Étude critique des affirmations « state-of-the-art » en IA/ML. Analyse de 10 benchmarks publics révèle que plus de 50% des comparaisons de modèles top ne supportent pas les propriétés implicites de supériorité (effet significatif, consistance inter-tâches, robustesse). Les gains agrégés reposent souvent sur des datasets aberrants. Propose un langage de claim plus honnête sans expériences supplémentaires.

Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

LARGER: Lexically Anchored Repository Graph Exploration and Retrieval

LARGER est un framework de récupération de contexte pour agents de codage au niveau repository. Il combine recherche lexicale et exploration de graphe structurel (imports, appels, hiérarchies de types) sans nécessiter de bases de données externes. Sur LocBench, il améliore la précision de +13.9 points (ou +11.8 avec hyperparamètres fixes) et gagne sur test generation et question-answering sur codebase.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Drift Flow Matching

Drift Flow Matching (DFM) combine les modèles de drift (génération en une étape) avec le flow matching itératif. Le framework préserve l'efficacité des transport maps directs tout en permettant un raffinement multi-étapes. Expériences validées sur plusieurs tâches et datasets.

Papers Benchmarks Génération d'images

SIG

HYP

arXiv cs.AI·19 mai

Systematic Evaluation of Vision Transformers for Automated Cervical Cancer Classification: Optimization, Statistical Validation, and Clinical Interpretability

Étude d'optimisation systématique de Vision Transformers (ViT-Tiny) pour le dépistage du cancer du col utérin sur le dataset Herlev (917 images). Configuration optimale : 94,9%-95,2% de précision en validation croisée avec augmentation horizontale et pondération de classe (0,7 x 1,3). Grad-CAM valide l'interprétabilité clinique : attention sur noyaux, limites cellulaires et texture chromatinienne.

Vision Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

PropGuard: Safeguarding LLM-MAS via Propagation-Aware Exploration and Remediation

PropGuard est un framework de sécurité pour les systèmes multi-agents basés sur LLM (LLM-MAS). Il détecte et neutralise les injections malveillantes propagées entre agents via un graphe spatio-temporel dual et un inspecteur entraîné par GE-GRPO. Les tests sur 4 architectures et 5 scénarios d'attaque montrent une réduction significative du succès des attaques.

Multi-agents Sécurité IA Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Goal-Conditioned Supervised Learning for LLM Fine-Tuning

Nouvelle méthode d'ajustement hors ligne pour LLM : Goal-Conditioned Supervised Learning (GCSL) traite les signaux de feedback comme des objectifs explicites et entraîne le modèle par apprentissage supervisé pur. Évalue sur génération non-toxique, code et recommandation ; surpasse SFT et DPO sans dépendre de modèles de récompense externes.

Fine-tuning Reinforcement learning Alignement

SIG

HYP

arXiv cs.AI·19 mai

LoopQ: Quantization for Recursive Transformers

LoopQ propose une méthode de quantization post-training (PTQ) adaptée aux modèles de langage récursifs (LoopLMs) qui réutilisent les blocs Transformer. La méthode adresse trois défis : décalage de distribution entre rôles, réutilisation d'état entre boucles, et accumulation d'erreur récursive. Résultats : +68,8% précision et -87,7% perplexité en W4A4 vs baseline.

Fine-tuning Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Detecting Verbatim LLM Copy-Paste in Homework

SteganoPrompt, un outil web open-source, détecte les copies verbatim d'énoncés d'exercices soumis à des LLM. Il encode une instruction invisible dans le prompt via le bloc Unicode Tags (U+E0000–U+E007F), créant une signature détectable dans la réponse du modèle. Testé sur 7 familles de LLM, l'approche contourne les limites des détecteurs post-hoc et ne nécessite pas la coopération du fournisseur.

Évaluations Sécurité IA Prompt engineering

SIG

HYP

arXiv cs.AI·19 mai

A Machine Learning Framework for EEG-Based Prediction of Treatment Efficacy in Chronic Neck Pain

Framework ML utilisant l'EEG pour prédire l'efficacité thérapeutique chez patients souffrant de douleurs cervicales chroniques. Pipeline de prétraitement rigoureux (suppression baseline, ICA, analyse spectrale) appliqué à EEG au repos et moteur. Revue systématique de 763 études (16 patients, 47 contrôles sains) pour informer la stratégie post-traitement.

Évaluations Papers

SIG

HYP

arXiv cs.AI·19 mai

Modality vs. Morphology: A Framework for Time Series Classification for Biological Signals

Revue unifiée sur la classification de séries temporelles de signaux biologiques (EEG, EMG, ECG, PPG, oculomoteurs). Le cadre morphologie-modalité montre que la structure des ondes (pics, rafales, oscillations, dérives) détermine plus fortement les performances que l'architecture du modèle. Les biais inductifs alignés avec la dynamique physiologique améliorent interprétabilité et généralisation.

Benchmarks Vision Papers

SIG

HYP

arXiv cs.AI·19 mai

Phase Transitions in Driven Informational Systems: A Two-Field Perspective on Learning Theory and Non-Equilibrium Chemistry

Article théorique proposant un cadre unifié pour les transitions de phase en apprentissage profond (grokking, capacités émergentes) et en chimie hors-équilibre. Introduit deux champs gradients (taux de production d'entropie et quasi-potentiel informationnel) et deux paramètres d'ordre (seuil de rupture adversariale α†, seuil de couplage auto-référentiel κc) pour décrire les systèmes informationnels pilotés.

Raisonnement Alignement Papers

SIG

HYP

arXiv cs.AI·19 mai

AdaGraph: A Graph-Native Clustering Algorithm That Overcomes the Curse of Dimensionality and Enables Scientific Discovery

AdaGraph est un algorithme de clustering graph-native qui élimine la malédiction de la dimensionnalité en opérant sur la topologie kNN plutôt que sur des métriques euclidiennes. Sans spécifier k a priori, il identifie des modules de gènes en génomique (GSE14520, 10k gènes), atteint ARI=0.751 en clustering texte (20NG-6cat vs HDBSCAN 0.464), et surpasse Silhouette/Davies-Bouldin sur 10 benchmarks jusqu'à d=5000.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Étude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant retire sélectivement des actions légales de l'ensemble disponible pour la victime. Sur des jeux de poker (6 à 5 531 états) et deux domaines non-poker, le masquage appris cause plus de dégâts que le masquage aléatoire. L'attaque persiste sur Q-learning, PPO, NFSP, DQN et ne montre pas de récupération.

Reinforcement learning Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Une nouvelle méthode de credit assignment pour l'apprentissage par renforcement avec LLMs. IBPO (Implicit Behavior Policy Optimization) utilise des trajectoires contrefactuelles pour transformer les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks de raisonnement mathématique et code.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

MANTA: Multi-turn Assessment for Nonhuman Thinking & Alignment

MANTA est un framework d'évaluation multi-tour sur Inspect AI qui teste la robustesse des LLM (Claude Sonnet 4, GPT-4o) face à des arguments adversariaux sur l'alignement du bien-être animal. Les résultats montrent que les modèles capitulent au tour 2 sous pression économique/sociale, et que l'attribution de capacités basée sur des preuves est la dimension la plus faible.

Claude GPT Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Consent Chain Degradation in Embodied Multi-Agent Systems: Bridging the Gap Between AI Agent Governance and Robot Ethics

Article théorique sur la dégradation du consentement dans les chaînes de délégation entre robots autonomes. Introduit le framework CoRVE pour vérifier le consentement à travers les architectures multi-agents. Analyse les lacunes réglementaires dans l'UE AI Act, GDPR, Machinery Regulation et Product Liability Directive.

Multi-agents Robotique Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

A Conflict-aware Evidential Framework for Reliable Sleep Stage Classification

ConfSleepNet, un framework basé sur la théorie de l'évidence, résout les conflits entre modalités pour la classification des stades du sommeil. La méthode extrait des preuves catégorielles de différentes modalités et agrège les opinions spécifiques aux vues via un mécanisme conscient des conflits. Code disponible sur GitHub.

Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

MusicSynth: An Automated Pipeline for Generating Violin Fingerboard Animations from Sheet Music Using Optical Music Recognition

MusicSynth est un outil web open-source qui convertit automatiquement des partitions de violon (photo ou fichier) en vidéos animées montrant le positionnement des doigts sur le manche. Le système combine reconnaissance optique de musique (OMR), parsing MusicXML et rendu vidéo. Testé sur 110 partitions : 91,2% de reconnaissance des notes en musique imprimée, 99,1% de précision en positionnement des doigts.

Vision Génération de code Open source

SIG

HYP

arXiv cs.AI·19 mai

Task-Level AI Readiness Assessment for Business Process Management:The T-IPO Model and LARA Matrix in Financial-Services IT Operations

Papier arXiv proposant T-IPO et LARA, deux outils pour évaluer la capacité des agents LLM à gérer des tâches métier. LARA est une matrice 5 dimensions classant les tâches en 4 niveaux (L1-L4), avec poids 1.5× sur la sensibilité compliance. Validation sur 127 tâches (κ=0.80), réplication sur 3 institutions (κ=0.73). Auto-completion décroît de 95% (L1) à 40% (L3).

Agents IA Évaluations Papers

SIG

HYP

arXiv cs.AI·19 mai

ANVIL: Analogies and Videos for Lecturers

ANVIL est un système génératif multimodal qui automatise la création d'animations pédagogiques basées sur des analogies pour l'informatique. À partir d'une définition de concept, il génère une analogie textuelle, la compile en scénario visuel structuré, et produit du code manim exécutable. Évaluation via études enseignants et utilisateurs.

Génération de vidéos Génération de code Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Are Researchers Being Replaced by Artificial Intelligence?

Une enquête Nature 2023 auprès de 1 600 chercheurs révèle tension entre enthousiasme et inquiétude face aux outils IA. L'article argue que le remplacement est en cours : passage du chercheur-créateur au chercheur-curateur. Risque majeur : les humains conservent la responsabilité tout en perdant la propriété intellectuelle et la compréhension profonde.

Agents IA Papers Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

AI of the People, by the People, for the People: A Social Choice Approach to Collective Control of Artificial Intelligence

Cadre théorique fondé sur la théorie du choix social pour intégrer le contrôle collectif dans le développement de l'IA, de la collecte de données à l'alignement. Propose des critères axiomatiques pour évaluer les mécanismes de contrôle démocratique à plusieurs étapes du pipeline ML.

Alignement Sécurité IA Régulation

SIG

HYP

arXiv cs.AI·19 mai

Homoglyph-based Adversarial Perturbation of Introductory Computer Science Theory Problems

Méthode utilisant des homoglyphes pour perturber adversarialement les énoncés de problèmes informatiques sans changer leur sens sémantique. Objectif : empêcher ChatGPT, Gemini et Claude de résoudre directement les devoirs étudiants. Outil interactif proposé.

Claude GPT Gemini

SIG

HYP

arXiv cs.AI·19 mai

Measuring Changes in Instructor Class Design and Student Learning After the Release of Large Language Models (LLMs)

Étude mixte multi-cours dans une université américaine (Nouvelle-Angleterre) analysant l'impact des LLM sur la pédagogie. Données quantitatives rétrospectives, sondages d'instructeurs et d'étudiants, notes historiques pré/post-LLM. Documente les changements dans les méthodes d'étude, la conception des cours et les résultats d'apprentissage.

Évaluations Business Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

AI4BayesCode: From Natural Language Descriptions to Validated Modular Stateful Bayesian Samplers

AI4BayesCode traduit des descriptions en langage naturel en samplers MCMC validés et modulaires. Le système décompose les modèles bayésiens en blocs de sampling mappés à des composants intégrés, avec validation pré et post-génération. Une architecture stateful récursive permet la composition cohérente de composants développés indépendamment.

Génération de code Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Evolutionary Extreme Learning Machine of ab-initio Energy Landscapes for Crystal Structure Prediction using Manta Ray Optimization with Levy Flight

Algorithme d'optimisation par essaim (Manta Ray Foraging) amélioré avec vol de Lévy pour entraîner des machines d'apprentissage extrême (ELM) appliquées à la prédiction d'énergies de formation cristallines. La méthode EELM-MRFO-LF sélectionne les poids d'entrée via MRFO-Lévy et détermine analytiquement les poids de sortie par inverse de Moore-Penrose.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

From Reactive to Proactive: A Multi-Regulatory Empirical Analysis of 480 AI Incidents and a Data-Driven Governance Compliance Framework

Analyse de 480 incidents IA réels du AIID comparés aux cadres de gouvernance EU AI Act, NIST AI Risk Management Framework et GDPR. Révèle des lacunes substantielles dans la responsabilité post-déploiement. Propose le Proactive AI Governance Compliance Framework (PAGCF), méthodologie en 4 phases pour passer d'une gouvernance réactive à une assurance de conformité pré-déploiement.

Régulation Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States

COAST (Contrastive Conceptor Activation Steering) améliore les modèles Vision-Language-Action en identifiant et en guidant les représentations latentes vers des sous-espaces critiques pour la réussite. Sur trois architectures distinctes, COAST augmente le taux de succès de +20% en simulation et +40% sur robots réels, sans entraînement supplémentaire.

Vision Robotique Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Keeping an Eye on AI: A Framework for Effective Human Oversight of AI Systems

Cadre multidisciplinaire pour la supervision humaine des systèmes IA en contextes à haut risque. Définit architectures de contrôle, rôles des acteurs et processus d'implémentation. Synthétise défis de recherche ouverts dans ce domaine émergent.

Sécurité IA Alignement Régulation

SIG

HYP

arXiv cs.AI·19 mai

Harnessing AI for Inverse Partial Differential Equation Problems: Past, Present, and Prospects

Revue systématique des méthodes IA pour résoudre les problèmes inverses d'équations aux dérivées partielles (EDP). Couvre trois catégories : problèmes inverses, conception inverse et contrôle. Applications : imagerie médicale, géophysique, aérodynamique, systèmes thermiques. Enjeux : architectures informées par la physique, données limitées, quantification d'incertitude, modèles fondamentaux inverses.

Papers Raisonnement Benchmarks

SIG

HYP