Archives

mai 2026

3148 articles

arXiv cs.CL·

AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course

Étude d'implémentation de Google Notebook LM pour générer vidéos, podcasts et infographies dans un cours d'anglais académique (106 étudiants, Hong Kong). Les étudiants ont apprécié l'utilité perçue et la facilité d'usage ; préférence pour contenus visuels/multimodaux. Corrélation positive entre préférence vidéo et performance académique, mais charge cognitive élevée associée à baisse des notes.

RAGOutilsÉvaluations
SIG
72
HYP
25
arXiv cs.AI·

PluRule: A Benchmark for Moderating Pluralistic Communities on Social Media

PluRule est un benchmark multimodal et multilingue pour la modération de communautés pluralistes sur les réseaux sociaux. Il couvre 13 371 violations de règles dans 1 989 communautés Reddit et 2 885 règles en 9 langues. Les modèles vision-langage de pointe, y compris GPT-4.5 avec raisonnement avancé, ne surpassent que légèrement une baseline triviale, révélant que la modération pluraliste reste un défi fondamental.

BenchmarksVisionSécurité IA
SIG
72
HYP
25
arXiv cs.AI·

Beyond Execution: Static-Analysis Rewards and Hint-Conditioned Diffusion RL for Code Generation

Étude empirique de RL post-training pour la génération de code par diffusion. Les auteurs proposent des récompenses sans exécution (static checking) et un échantillonnage conditionné par hints AST pour contourner le « capability cliff ». Static checking améliore DiffuCoder de 53.9 à 67.1 sur HumanEval et réduit le temps de rollout de 9.4%.

Génération de codeReinforcement learningBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

DashAttention propose une méthode d'attention hiérarchique différentiable utilisant la transformation α-entmax pour sélectionner adaptativement un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton surpasse FlashAttention-3.

RaisonnementInfrastructureBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

Code as Agent Harness

Nouvelle perspective sur les systèmes d'agents IA : le code comme infrastructure centrale. Cet article de recherche organise un cadre unifié autour de trois couches — interface de harness (code connectant raisonnement et action), mécanismes (planification, mémoire, feedback), et passage à l'échelle multi-agents. Applications : assistants de code, automatisation GUI/OS, agents incarnés, découverte scientifique.

Agents IAMulti-agentsGénération de code
SIG
75
HYP
25
arXiv cs.AI·

DynMuon: A Dynamic Spectral Shaping View of Muon

DynMuon étend Muon en remplaçant la mise à jour M par U·Σ^p·V† avec un paramètre p dynamique. La théorie montre que p positif accélère la contraction du signal en début d'entraînement, tandis que p légèrement négatif réalloue la force de mise à jour vers les directions basse-courbure en fin d'entraînement. DynMuon réduit de 10,6-26,5% le nombre d'étapes pour atteindre une perte cible donnée.

RaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning

SEMA-RAG est un framework multi-agent pour la génération augmentée par récupération (RAG) appliquée au raisonnement médical. Il décompose le processus en trois agents spécialisés : interprétation clinique, exploration itérative de documents, et adjudication des preuves. Testé sur 5 benchmarks et 5 backbones LLM, il améliore les baselines de +6,46 points de précision en moyenne.

Multi-agentsRAGRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

Visual Timelines of Police Encounters in Body-Worn Camera Footage: Operational Context and Activity Cataloging for Training and Analysis in OpenBWC

Approche pour traiter les vidéos de caméras corporelles (BWC) en fenêtres de 10 secondes étiquetées selon le contexte opérationnel et l'intensité motrice. Modèles entraînés avec CLIP et optical flow : 78,75% de précision pour le contexte, 88,33% pour l'activité. Protocole respectueux de la vie privée pour accélérer l'analyse et la formation des agents.

VisionBenchmarksSécurité IA
SIG
72
HYP
15
arXiv cs.AI·

Privacy Policy Enforcement Guardrails for Data-Sensitive Retrieval-Augmented Generation

Un framework PPE utilise des estimateurs de densité one-class avec embeddings textuels fusionnés pour détecter les fuites de données contextuelles dans les systèmes RAG. Le détecteur T3+OCSVM atteint 0.93+ AUROC, réduit les faux positifs de 44-55 points et maintient une latence millisecondes, surpassant les classifieurs MLP supervisés et les juges LLM 14B.

RAGSécurité IAEmbeddings
SIG
72
HYP
18
arXiv cs.AI·

When Dynamics Shift, Robust Task Inference Wins: Offline Imitation Learning with Behavior Foundation Models Revisited

Les Behavior Foundation Models (BFMs) permettent l'apprentissage par imitation à grande échelle, mais échouent sous les changements de dynamique (friction, actuation, bruit). Cet article formule l'inférence de tâche BFM comme un problème d'optimisation minimax robuste, permettant l'adaptation aux perturbations de dynamique sans modifier le préentraînement. Le cadre surpasse les baselines BFM et offline IL robustes.

Reinforcement learningPapersÉvaluations
SIG
72
HYP
18
arXiv cs.AI·

Adversarial Fragility and Language Vulnerability in Clinical AI: A Systematic Audit of Diagnostic Collapse Under Imperceptible Perturbations and Cross-Lingual Drift in Low-Resource Healthcare Settings

Audit systématique de deux vulnérabilités critiques dans l'IA clinique : fragilité adversariale et dérive linguistique. Sur CheXNet (DenseNet121), la précision s'effondre de 89,3% à 62,0% sous perturbation FGM imperceptible (epsilon=0,021). Llama3.1:8b et NatLAS montrent dégradation majeure sur pidgin nigérian et yoruba (80%→65%, 85%→55%). Défenses standard inefficaces.

Sécurité IAAlignementÉvaluations
SIG
78
HYP
25
arXiv cs.AI·

Latent Action Control for Reasoning-Guided Unified Image Generation

LAC (Latent Action Control) rend le raisonnement actionnable dans les modèles génératifs unifiés en représentant la planification et le diagnostic comme des actions latentes continues. Intégré à BAGEL-7B-MoT, LAC améliore la génération compositionnelle et fondée sur les connaissances via alignement variationnel et GRPO, avec gains majeurs sur les relations spatiales et les liaisons d'attributs.

Génération d'imagesRaisonnementGénération de code
SIG
72
HYP
25
arXiv cs.CL·

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

STT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLM à adapter leurs plans face à des changements spatio-temporels dynamiques. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL en ligne.

Agents IABenchmarksReinforcement learning
SIG
78
HYP
25
arXiv cs.AI·

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

RTPurbo transforme les LLM en modèles sparse en ~100 étapes d'entraînement. L'approche exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection top-p dynamique surpasse top-k fixe. Résultats : 9.36× speedup prefill à 1M tokens, 2.01× speedup decode, précision préservée.

RaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Metric-Guided Feature Fusion of Visual Foundation Models for Segmentation Tasks

Approche de fusion guidée par métriques pour combiner les caractéristiques complémentaires de modèles de fondation visuels (SAM2, DINOv3) dans les tâches de segmentation dense. Deux métriques sans labels (Cohérence Structurelle, Fidélité des Contours) évaluent les encodeurs et sélectionnent les paires complémentaires. Gains de performance constants sur plusieurs tâches sans modifications architecturales complexes.

VisionBenchmarksOpen source
SIG
72
HYP
18
arXiv cs.AI·

PhysioSeq2Seq: A Hybrid Physiological Digital Twin and Sequence-to-Sequence LSTM for Long-Horizon Glucose Forecasting in Type 1 Diabetes

PhysioSeq2Seq combine un modèle physiologique numérique patient-spécifique avec un LSTM Seq2Seq pour prédire la glycémie sur 240 minutes chez les diabétiques de type 1. Entraîné sur 348 participants (T1DEXI), évalué sur 74 : MAE 39.28 mg/dL à l'horizon 240 min, réduisant le biais de 13.89 mg/dL vs LSTM récursif.

RaisonnementReinforcement learningBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Thinking with Patterns: Breaking the Perceptual Bottleneck in Visual Planning via Pattern Induction

Les VLMs peinent à planifier à partir d'entrées visuelles complexes. Cet article propose Pattern Induction, une stratégie d'apprentissage inductif en ligne qui découvre et optimise des motifs visuels réutilisables comme experts composites. Pattern Inference permet aux VLMs de reconnaître ces motifs et d'inférer directement les structures du modèle monde. Évalué sur FrozenLake, Crafter et CubeBench.

VisionRaisonnementPapers
SIG
65
HYP
25
arXiv cs.CL·

Ancient Greek to Modern Greek Machine Translation: A Novel Benchmark and Fine-Tuning Experiments on LLMs and NMT Models

Nouveau corpus parallèle AG-MG de 132 481 paires de phrases pour la traduction du grec ancien au grec moderne. Pipeline de création combinant web-scraping, alignement VecAlign avec embeddings LaBSE fine-tunés, et correction LLM via Gemini 2.5 Flash. Benchmark de modèles NMT (NLLB, M2M100) et LLM grec (Llama-Krikri-8B) : fine-tuning complet atteint 13.16 BLEU, gains jusqu'à +10.3 points.

BenchmarksFine-tuningEmbeddings
SIG
78
HYP
15
arXiv cs.AI·

Decoupling KL and Trajectories: A Unified Perspective for SFT, DAgger, Offline RL, and OPD in LLM Distillation

Étude unifiée de la distillation de LLM montrant que SFT, DAgger, offline RL et OPD découplent deux axes orthogonaux : source de préfixe et direction KL au niveau token. Les auteurs proposent KL mixing et curriculum de longueur avec gate entropie, améliorant Pass@k de 5.8 points et réduisant la longueur moyenne de 3x sur le raisonnement mathématique.

Fine-tuningReinforcement learningRaisonnement
SIG
82
HYP
15
arXiv cs.AI·

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

AgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur configurations inédites. Cursor Agent, Claude Code et Codex Agent atteignent des speedups jusqu'à 6.89x, mais les optimisations PyTorch-to-HIP montrent des chutes de correction sur configurations non vues.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Cross-modal Affinity-aligned Multimodal Learning Analytics for Predicting Student Collaboration Satisfaction in Game-Based Learning

AAMLA, un framework de multimodal learning analytics, prédit la satisfaction collaborative d'étudiants en environnement de jeu éducatif. Le module CAMA aligne les modalités (gaze, action units, pose) via matrices d'affinité et apprentissage contrastif, supprimant adaptivement les modalités non-informatives. Tests sur 50 collégiens dans EcoJourneys montrent amélioration vs baselines unimodales.

VisionMulti-agentsÉvaluations
SIG
62
HYP
18
arXiv cs.AI·

Causely: A Causal Intelligence Layer for Enterprise AI A Benchmark Study on SRE and Reliability Workflows

Causely est une couche d'intelligence causale pour les workflows SRE qui structure la topologie d'environnement et les dépendances causales. Benchmark sur 4 configurations d'agents (Claude Code, OpenAI Codex, HolmesGPT) : avec Causely, diagnostic 63% plus rapide, consommation tokens -60%, appels outils -78%, coût API -57%, précision diagnostic 75%→100%.

Agents IABenchmarksClaude Code
SIG
78
HYP
25
arXiv cs.CL·

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

SkillsVote est un framework de gouvernance du cycle de vie des skills d'agents IA, depuis leur collecte jusqu'à leur évolution. Il profile un corpus open-source à l'échelle du million pour la qualité et la vérifiabilité, puis décompose les trajectoires en subtasks liées aux skills. Les résultats montrent +7.9pp sur Terminal-Bench 2.0 (GPT-5.2) et +2.6pp sur SWE-Bench Pro.

Agents IAMulti-agentsRaisonnement
SIG
72
HYP
25
arXiv cs.AI·

UniER: A Unified Benchmark for Item-level and Path-level Exercise Recommendation

UniER est un benchmark unifié pour la recommandation d'exercices pédagogiques, comparant deux paradigmes : ILER (recommandation au niveau item) et PLER (recommandation de parcours d'apprentissage). Le framework introduit la métrique Weighted Cognitive Gain (WCG) et évalue 18 méthodes sur 9 datasets. Les résultats montrent la supériorité systématique de PLER et les limites d'ILER en contexte de rareté de données.

BenchmarksÉvaluationsPapers
SIG
75
HYP
15
arXiv cs.AI·

Genflow Ad Studio: A Compound AI Architecture for Brand-Aligned, Self-Correcting Video Generation

Genflow est une architecture IA composée pour la génération vidéo alignée à la marque. Elle combine un module d'extraction 'Brand DNA' par récupération et une boucle de contrôle qualité multi-agents adversariale. Le système itère entre générateurs et évaluateurs jusqu'à consensus, améliorant la conformité de 42% à 89%.

Multi-agentsGénération de vidéosAgents IA
SIG
72
HYP
35
arXiv cs.AI·

GeoWorld-VLM: Geometry from World Models for Vision-Language Models

GeoWorld-VLM améliore les capacités spatiales des Vision-Language Models en transférant des structures géométriques depuis des world models vidéo gelés. La méthode fine-tune uniquement l'encodeur d'image et le projecteur multimodal, alignant les représentations visuelles avec les représentations intermédiaires du world model. Gains de ~4% sur les benchmarks What'sUp et VSR.

VisionRaisonnementFine-tuning
SIG
72
HYP
18
arXiv cs.AI·

EfficientTDMPC: Improved MPC Objectives for Sample-Efficient Continuous Control

EfficientTDMPC améliore l'efficacité échantillon du contrôle continu en renforcement par modèle. La méthode utilise un ensemble de modèles de dynamique, moyenne les estimations de rendement sur plusieurs profondeurs de rollout, et ajoute une pénalité d'incertitude au planificateur. Elle atteint SOTA sur HumanoidBench-Hard et DMC hard en régime faible données.

Reinforcement learningBenchmarksPapers
SIG
72
HYP
18
arXiv cs.AI·

GraViti: Graph-Level Variational Autoencoders with Relaxed Permutation Invariance

GraViti est un autoencodeur variationnel basé transformer pour les graphes entiers, produisant un espace latent au niveau du graphe. Sur des benchmarks moléculaires, le modèle apprend à décoder des échantillons valides respectant les contraintes chimiques. L'étude montre que l'invariance de permutation peut nuire à la reconstruction cohérente quand un ordre canonique existe.

PapersBenchmarksGénération de code
SIG
72
HYP
18
arXiv cs.CL·

Leveraging Graph Structure in Seq2Seq Models for Knowledge Graph Link Prediction

GA-S2S combine un encodeur-décodeur T5-small avec un Relational Graph Attention Network pour la prédiction de liens dans les graphes de connaissances. Le modèle encode conjointement les caractéristiques textuelles et la topologie complète du sous-graphe k-hop autour de l'entité requête, capturant les motifs relationnels multi-hop. Sur CoDEx, GA-S2S surpasse les baselines Seq2Seq avec un gain de 19% en précision.

BenchmarksPapers
SIG
72
HYP
18
arXiv cs.AI·

\textsc{PrivScope}: Task-scoped Disclosure Control for Hybrid Agentic Systems

PrivScope est un contrôleur de charge utile local qui applique une divulgation limitée au périmètre de la tâche à la frontière local-cloud pour les systèmes agents hybrides. Sur 100 workflows de réservation médicale, il élimine 100% des fuites de profil (vs 17,7%), réduit de moitié la réidentification (23,1% vs 64,3%) et maintient le succès des tâches sans modifications côté cloud.

Agents IASécurité IABenchmarks
SIG
78
HYP
15
arXiv cs.AI·

To Trust or Not to Trust: Authors' Response to AI-based Reviews

Étude sur 56 auteurs de 40 articles : 83,9% trouvent les revues IA utiles, 80,4% rapportent que l'IA identifie des problèmes manqués par les humains, 82,1% intègrent le feedback IA dans leur version finale. Cependant, les auteurs font moins confiance à l'IA qu'aux humains (51,8% signalent des inexactitudes mineures, 16,1% des erreurs graves). 96,4% accepteraient l'IA comme outil interne de révision avant soumission.

ÉvaluationsSécurité IARégulation
SIG
72
HYP
25
arXiv cs.AI·

MATE: Solving Contextual Markov Decision Processes with Memory of Accumulated Transition Embeddings

MATE est une architecture mémoire pour résoudre les processus décisionnels de Markov contextuels (CMDP). Elle remplace la distribution a posteriori intractable par une mémoire agrégée par somme, évitant les coûts de calcul croissants des Transformers et les problèmes de gradient des RNN. Les évaluations montrent des avantages computationnels avec performance comparable aux baselines.

RaisonnementReinforcement learningPapers
SIG
72
HYP
15
arXiv cs.AI·

How Few-Shot Examples Add Up: A Causal Decomposition of Function Vectors in In-Context Learning

Étude mécanistique de l'apprentissage en contexte (ICL) : les vecteurs de fonction n-shot se décomposent linéairement en contributions d'exemples individuels. Les modèles repondèrent adaptivement les démonstrations via attention, privilégiant les exemples informatifs et non-ambigus. L'alignement Query-Key domine la qualité du vecteur de fonction.

RaisonnementÉvaluationsPapers
SIG
78
HYP
15
arXiv cs.AI·

RAPT: Retrieval-Augmented Post-hoc Thresholding for Multi-Label Classification

RAPT est un wrapper de post-traitement retrieval-augmented pour améliorer la sélection d'étiquettes en classification multi-label sans réentraînement. Appliqué à des encodeurs metric learning et transformers fine-tunés, RAPT atteint 0.87 Macro-F1 sur données industrielles, surpassant les baselines statiques et les LLMs few-shot (K=5) avec 115x moins de temps d'inférence.

RAGBenchmarksFine-tuning
SIG
72
HYP
18
arXiv cs.AI·

Ablating Safety: Mechanisms for Removing Alignment in Language Models for Security Applications

Étude sur le retrait contrôlé de l'alignement de sécurité dans les modèles de langage pour évaluer les capacités en cybersécurité. Compare prompting en contexte autorisé, projection de direction de refus et LoRA. Sur 60 tâches (Security-AR), la projection LoRA seule atteint 0,87 en score sécurité avec 0,83 en capacités générales, mais augmente la conformité dangereuse non autorisée.

Sécurité IAAlignementFine-tuning
SIG
72
HYP
15
Reddit r/MachineLearning·

We built a tool that installs frameworks like ComfyUI, Ollama, OpenWebUI etc on any cloud GPU in one command and saves your whole setup between sessions [R]

swm est un outil open-source qui automatise l'installation de frameworks (ComfyUI, Ollama, OpenWebUI, vLLM) sur GPU cloud en une commande. Il agrège les prix de 10+ fournisseurs (RunPod, Vast.ai, Lambda), synchronise les workspaces via S3, et termine automatiquement les instances inactives après 30 min pour réduire les coûts.

OutilsOpen sourceInfrastructure
SIG
72
HYP
35
Reddit r/LocalLLaMA·

club-5060ti follow-up: cleaner RTX 5060 Ti local LLM recipes, benchmark explorer, and CUDA GPU compatibility notes

Mise à jour du projet club-5060ti : repo structuré de benchmarks et recettes pour LLM locaux sur RTX 5060 Ti. Inclut explorateur de résultats statique, schéma JSON validé, recettes single/dual-card, support llama.cpp/vLLM. Baseline : RTX 5060 Ti 16GB. Recommande llama.cpp/GGUF pour GPU mixtes, vLLM NVFP4/MTP spécifique à Blackwell.

Open sourceBenchmarksInfrastructure
SIG
72
HYP
15
Reddit r/MachineLearning·

Rewriting model inference with CUDA kernels: the bottleneck was not just GEMM [P]

Développement d'un runtime CUDA optimisé pour l'inférence petit batch (robotique, VLA). Les goulots d'étranglement ne sont pas les GEMM seuls mais les surcoûts runtime : fragmentation kernels, transitions layout, conversions précision (FP8/FP4), scheduling Python. Résultats : Pi0.5 sur RTX 5090 ~17.6ms, GROOT N1.6 ~12.5-13.1ms, Qwen 27B ~129 tok/s.

Génération de codeInfrastructureRobotique
SIG
78
HYP
25