mai 2026

3149 articles

Rover: Context-aware Conflict Resolution with LLM

Rover est un système de résolution de conflits de fusion de code combinant analyse de programme et LLM. Il introduit Multi-layer Code Property Graph (MtCPG) pour capturer les dépendances inter-fichiers et utilise des algorithmes de connectivité graphique pour créer des contextes significatifs. Évaluation : Rover surpasse les LLM seuls, MergeGen et WizardMerge aux niveaux caractère, lexical et sémantique.

Génération de code Raisonnement Outils

SIG

HYP

arXiv cs.CL·19 mai

ANVIL: Analogies and Videos for Lecturers

ANVIL est un système génératif multimodal qui automatise la production d'animations pédagogiques basées sur des analogies pour l'informatique. À partir d'une définition de concept, il génère une analogie textuelle, la compile en scénario visuel structuré, et produit du code manim exécutable. L'évaluation combine jugements d'enseignants et screening automatisé par LLM.

Génération de code Vision Évaluations

SIG

HYP

arXiv cs.CL·19 mai

AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course

Étude d'implémentation de Google Notebook LM pour générer vidéos, podcasts et infographies dans un cours d'anglais académique (106 étudiants, Hong Kong). Les étudiants ont apprécié l'utilité perçue et la facilité d'usage ; préférence pour contenus visuels/multimodaux. Corrélation positive entre préférence vidéo et performance académique, mais charge cognitive élevée associée à baisse des notes.

RAG Outils Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Integration of AI in Cybersecurity: Current Trends with a Focused Look at Intrusion Detection Applications

Revue des tendances IA en cybersécurité, focalisée sur la détection d'intrusions. Analyse comparative des approches basées sur IA générative, NLP, apprentissage fédéré et IA explicable pour améliorer l'interprétabilité et la confiance dans les systèmes de détection.

Sécurité IA Évaluations Papers

SIG

HYP

arXiv cs.AI·19 mai

Event-Grounded Sparse Autoencoders for Vision-Language-Action Policies

Nouvelle approche d'interprétabilité mécanique pour les politiques Vision-Langue-Action (VLA) robotiques. Les auteurs proposent des autoencodeurs creux (SAE) ancrés à des événements comportementaux plutôt qu'à des contextes textuels. Évaluation sur OpenVLA et π₀.₅ en simulation et robot réel, avec code disponible.

Vision Robotique Agents IA

SIG

HYP

arXiv cs.AI·19 mai

PluRule: A Benchmark for Moderating Pluralistic Communities on Social Media

PluRule est un benchmark multimodal et multilingue pour la modération de communautés pluralistes sur les réseaux sociaux. Il couvre 13 371 violations de règles dans 1 989 communautés Reddit et 2 885 règles en 9 langues. Les modèles vision-langage de pointe, y compris GPT-4.5 avec raisonnement avancé, ne surpassent que légèrement une baseline triviale, révélant que la modération pluraliste reste un défi fondamental.

Benchmarks Vision Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Beyond Execution: Static-Analysis Rewards and Hint-Conditioned Diffusion RL for Code Generation

Étude empirique de RL post-training pour la génération de code par diffusion. Les auteurs proposent des récompenses sans exécution (static checking) et un échantillonnage conditionné par hints AST pour contourner le « capability cliff ». Static checking améliore DiffuCoder de 53.9 à 67.1 sur HumanEval et réduit le temps de rollout de 9.4%.

Génération de code Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

DashAttention propose une méthode d'attention hiérarchique différentiable utilisant la transformation α-entmax pour sélectionner adaptativement un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton surpasse FlashAttention-3.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Code as Agent Harness

Nouvelle perspective sur les systèmes d'agents IA : le code comme infrastructure centrale. Cet article de recherche organise un cadre unifié autour de trois couches — interface de harness (code connectant raisonnement et action), mécanismes (planification, mémoire, feedback), et passage à l'échelle multi-agents. Applications : assistants de code, automatisation GUI/OS, agents incarnés, découverte scientifique.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·19 mai

UCSF-PDGM-VQA: Visual Question Answering dataset for brain tumor MRI interpretation

UCSF-PDGM-VQA est un benchmark VQA clinique pour l'interprétation d'IRM cérébrale tumorale. Dataset de 2 387 paires QA sur 473 études de gliome. Évaluation de 6 VLMs : tous échouent sur les IRM multi-séquences 3D, souffrent de modality collapse et sur-dépendance aux priors linguistiques.

Vision Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

CAM-VFD: Cross-Attention Multimodal Video Forgery Detection

CAM-VFD détecte les deepfakes vidéo en analysant les contradictions entre modalités (apparence, mouvement, profondeur) via mécanisme cross-attention. Atteint 95,31% sur GenVidBench et 93,43% sur GenVideo avec robustesse aux compressions et perturbations adversariales.

Vision Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

A Systematic Survey on Deep Learning Architectures for Point Cloud Classification and Segmentation

Enquête systématique sur les architectures deep learning pour la classification et segmentation de nuages de points 3D. Couvre les défis (désordre, bruit, occlusions), les stratégies (conversion de format, géométrie locale, invariance aux permutations, self-attention) et évalue les modèles sur benchmarks standards.

Vision Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

New Wide-Net-Casting Jailbreak Attacks Risk Large Models

Étude arXiv identifiant une nouvelle classe d'attaques par jailbreak : le « wide-net-casting » où un adversaire interroge plusieurs grands modèles simultanément pour contourner les garde-fous. Les chercheurs développent une méthode de jailbreak spécialisée atteignant 100% de succès sur certains modèles non protégés, révélant des risques de sécurité majeurs.

Sécurité IA Alignement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

DynMuon: A Dynamic Spectral Shaping View of Muon

DynMuon étend Muon en remplaçant la mise à jour M par U·Σ^p·V† avec un paramètre p dynamique. La théorie montre que p positif accélère la contraction du signal en début d'entraînement, tandis que p légèrement négatif réalloue la force de mise à jour vers les directions basse-courbure en fin d'entraînement. DynMuon réduit de 10,6-26,5% le nombre d'étapes pour atteindre une perte cible donnée.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning

SEMA-RAG est un framework multi-agent pour la génération augmentée par récupération (RAG) appliquée au raisonnement médical. Il décompose le processus en trois agents spécialisés : interprétation clinique, exploration itérative de documents, et adjudication des preuves. Testé sur 5 benchmarks et 5 backbones LLM, il améliore les baselines de +6,46 points de précision en moyenne.

Multi-agents RAG Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Visual Timelines of Police Encounters in Body-Worn Camera Footage: Operational Context and Activity Cataloging for Training and Analysis in OpenBWC

Approche pour traiter les vidéos de caméras corporelles (BWC) en fenêtres de 10 secondes étiquetées selon le contexte opérationnel et l'intensité motrice. Modèles entraînés avec CLIP et optical flow : 78,75% de précision pour le contexte, 88,33% pour l'activité. Protocole respectueux de la vie privée pour accélérer l'analyse et la formation des agents.

Vision Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Privacy Policy Enforcement Guardrails for Data-Sensitive Retrieval-Augmented Generation

Un framework PPE utilise des estimateurs de densité one-class avec embeddings textuels fusionnés pour détecter les fuites de données contextuelles dans les systèmes RAG. Le détecteur T3+OCSVM atteint 0.93+ AUROC, réduit les faux positifs de 44-55 points et maintient une latence millisecondes, surpassant les classifieurs MLP supervisés et les juges LLM 14B.

RAG Sécurité IA Embeddings

SIG

HYP

arXiv cs.AI·19 mai

When Dynamics Shift, Robust Task Inference Wins: Offline Imitation Learning with Behavior Foundation Models Revisited

Les Behavior Foundation Models (BFMs) permettent l'apprentissage par imitation à grande échelle, mais échouent sous les changements de dynamique (friction, actuation, bruit). Cet article formule l'inférence de tâche BFM comme un problème d'optimisation minimax robuste, permettant l'adaptation aux perturbations de dynamique sans modifier le préentraînement. Le cadre surpasse les baselines BFM et offline IL robustes.

Reinforcement learning Papers Évaluations

SIG

HYP

arXiv cs.AI·19 mai

The IsalProgram Programming Language

IsalProgram est un langage assembleur régulier où tout string fini est un programme valide. Exécuté sur une machine virtuelle avec liste doublement chaînée circulaire, il élimine adresses mémoire et noms de variables. Les auteurs prouvent sa régularité et explorent son potentiel pour la synthèse neuronale de programmes.

Génération de code Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Adversarial Fragility and Language Vulnerability in Clinical AI: A Systematic Audit of Diagnostic Collapse Under Imperceptible Perturbations and Cross-Lingual Drift in Low-Resource Healthcare Settings

Audit systématique de deux vulnérabilités critiques dans l'IA clinique : fragilité adversariale et dérive linguistique. Sur CheXNet (DenseNet121), la précision s'effondre de 89,3% à 62,0% sous perturbation FGM imperceptible (epsilon=0,021). Llama3.1:8b et NatLAS montrent dégradation majeure sur pidgin nigérian et yoruba (80%→65%, 85%→55%). Défenses standard inefficaces.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

Readers make targeted regressions to plausible errors in reanalysis of "noisy-channel garden-path" sentences

Étude psycholinguistique sur la dynamique de lecture de phrases « garden-path » avec canal bruité. Les lecteurs effectuent des régressions oculaires ciblées vers les régions susceptibles de contenir des erreurs, confirmant un modèle de traitement par canal bruité avec réanalyse.

Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Skills on the Fly: Test-Time Adaptive Skill Synthesis for LLM Agents

SkillTTA synthétise des compétences textuelles spécifiques à la tâche en récupérant des trajectoires d'entraînement pertinentes, sans mettre à jour les paramètres du modèle. Évalué sur SpreadsheetBench, ALFWorld et BigCodeBench : Pass@1 passe de 0.397 à 0.505 sur SpreadsheetBench, de 0.517 à 0.651 sur BigCodeBench.

Agents IA Prompt engineering Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Extending Pretrained 10-Second ECG Foundation Models to Longer Horizons

Méthode pour étendre les modèles fondamentaux ECG (préentraînés sur 10 secondes) à des enregistrements plus longs et de durée variable. Un module léger plug-in ajoute le traitement de séquences longues et la modélisation temporelle sans réentraîner le backbone. Résultats sur plusieurs tâches ECG long-horizon surpassent les baselines sliding-window et pooling.

Papers Fine-tuning Vision

SIG

HYP

arXiv cs.AI·19 mai

Latent Action Control for Reasoning-Guided Unified Image Generation

LAC (Latent Action Control) rend le raisonnement actionnable dans les modèles génératifs unifiés en représentant la planification et le diagnostic comme des actions latentes continues. Intégré à BAGEL-7B-MoT, LAC améliore la génération compositionnelle et fondée sur les connaissances via alignement variationnel et GRPO, avec gains majeurs sur les relations spatiales et les liaisons d'attributs.

Génération d'images Raisonnement Génération de code

SIG

HYP

arXiv cs.CL·19 mai

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

STT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLM à adapter leurs plans face à des changements spatio-temporels dynamiques. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL en ligne.

Agents IA Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

RTPurbo transforme les LLM en modèles sparse en ~100 étapes d'entraînement. L'approche exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection top-p dynamique surpasse top-k fixe. Résultats : 9.36× speedup prefill à 1M tokens, 2.01× speedup decode, précision préservée.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Metric-Guided Feature Fusion of Visual Foundation Models for Segmentation Tasks

Approche de fusion guidée par métriques pour combiner les caractéristiques complémentaires de modèles de fondation visuels (SAM2, DINOv3) dans les tâches de segmentation dense. Deux métriques sans labels (Cohérence Structurelle, Fidélité des Contours) évaluent les encodeurs et sélectionnent les paires complémentaires. Gains de performance constants sur plusieurs tâches sans modifications architecturales complexes.

Vision Benchmarks Open source

SIG

HYP

arXiv cs.AI·19 mai

Plan First, Diffuse Later: Extrinsic Graph Guidance for Long-Horizon Diffusion Planning

XDiffuser combine planification par graphe d'état et diffusion pour améliorer la planification long-horizon. Le modèle calcule d'abord un plan classique servant d'oracle de connectivité, puis l'utilise pour guider le débruitage d'une trajectoire unique. Surpasse les baselines diffusion sur tâches long-horizon, coordination multi-agent et problèmes TSP.

Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

When Fireflies Cluster; Enhancing Automatic Clustering via Centroid-Guided Firefly Optimization

Variante de l'algorithme Firefly pour le clustering automatique. Introduit une stratégie de mouvement centroïde et une fonction fitness multi-objectif (compacité, séparation, pénalité TSP). Estime automatiquement le nombre optimal de clusters. Surpasse K-Means sur réseaux de capteurs robotiques.

Robotique

SIG

HYP

arXiv cs.AI·19 mai

PhysioSeq2Seq: A Hybrid Physiological Digital Twin and Sequence-to-Sequence LSTM for Long-Horizon Glucose Forecasting in Type 1 Diabetes

PhysioSeq2Seq combine un modèle physiologique numérique patient-spécifique avec un LSTM Seq2Seq pour prédire la glycémie sur 240 minutes chez les diabétiques de type 1. Entraîné sur 348 participants (T1DEXI), évalué sur 74 : MAE 39.28 mg/dL à l'horizon 240 min, réduisant le biais de 13.89 mg/dL vs LSTM récursif.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Thinking with Patterns: Breaking the Perceptual Bottleneck in Visual Planning via Pattern Induction

Les VLMs peinent à planifier à partir d'entrées visuelles complexes. Cet article propose Pattern Induction, une stratégie d'apprentissage inductif en ligne qui découvre et optimise des motifs visuels réutilisables comme experts composites. Pattern Inference permet aux VLMs de reconnaître ces motifs et d'inférer directement les structures du modèle monde. Évalué sur FrozenLake, Crafter et CubeBench.

Vision Raisonnement Papers

SIG

HYP

arXiv cs.CL·19 mai

Ancient Greek to Modern Greek Machine Translation: A Novel Benchmark and Fine-Tuning Experiments on LLMs and NMT Models

Nouveau corpus parallèle AG-MG de 132 481 paires de phrases pour la traduction du grec ancien au grec moderne. Pipeline de création combinant web-scraping, alignement VecAlign avec embeddings LaBSE fine-tunés, et correction LLM via Gemini 2.5 Flash. Benchmark de modèles NMT (NLLB, M2M100) et LLM grec (Llama-Krikri-8B) : fine-tuning complet atteint 13.16 BLEU, gains jusqu'à +10.3 points.

Benchmarks Fine-tuning Embeddings

SIG

HYP

arXiv cs.AI·19 mai

Decoupling KL and Trajectories: A Unified Perspective for SFT, DAgger, Offline RL, and OPD in LLM Distillation

Étude unifiée de la distillation de LLM montrant que SFT, DAgger, offline RL et OPD découplent deux axes orthogonaux : source de préfixe et direction KL au niveau token. Les auteurs proposent KL mixing et curriculum de longueur avec gate entropie, améliorant Pass@k de 5.8 points et réduisant la longueur moyenne de 3x sur le raisonnement mathématique.

Fine-tuning Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

From BERT to T5: A Study of Named Entity Recognition

Étude comparative de BERT (encoder-only) et T5 (seq2seq) sur la reconnaissance d'entités nommées (NER). BERT utilise une tête de classification avec cross-entropie pondérée ; T5 est affiné avec prompts few-shot. Tests sur schémas 7-classes et 3-classes simplifiés, avec ablation study et analyse des erreurs communes.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

AgentKernelArena est un benchmark open-source pour évaluer les agents IA sur l'optimisation de kernels GPU. Il contient 196 tâches (HIP-to-HIP, Triton-to-Triton, PyTorch-to-HIP) et teste la généralisation sur configurations inédites. Cursor Agent, Claude Code et Codex Agent atteignent des speedups jusqu'à 6.89x, mais les optimisations PyTorch-to-HIP montrent des chutes de correction sur configurations non vues.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Cross-modal Affinity-aligned Multimodal Learning Analytics for Predicting Student Collaboration Satisfaction in Game-Based Learning

AAMLA, un framework de multimodal learning analytics, prédit la satisfaction collaborative d'étudiants en environnement de jeu éducatif. Le module CAMA aligne les modalités (gaze, action units, pose) via matrices d'affinité et apprentissage contrastif, supprimant adaptivement les modalités non-informatives. Tests sur 50 collégiens dans EcoJourneys montrent amélioration vs baselines unimodales.

Vision Multi-agents Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Causely: A Causal Intelligence Layer for Enterprise AI A Benchmark Study on SRE and Reliability Workflows

Causely est une couche d'intelligence causale pour les workflows SRE qui structure la topologie d'environnement et les dépendances causales. Benchmark sur 4 configurations d'agents (Claude Code, OpenAI Codex, HolmesGPT) : avec Causely, diagnostic 63% plus rapide, consommation tokens -60%, appels outils -78%, coût API -57%, précision diagnostic 75%→100%.

Agents IA Benchmarks Claude Code

SIG

HYP

arXiv cs.CL·19 mai

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

SkillsVote est un framework de gouvernance du cycle de vie des skills d'agents IA, depuis leur collecte jusqu'à leur évolution. Il profile un corpus open-source à l'échelle du million pour la qualité et la vérifiabilité, puis décompose les trajectoires en subtasks liées aux skills. Les résultats montrent +7.9pp sur Terminal-Bench 2.0 (GPT-5.2) et +2.6pp sur SWE-Bench Pro.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Encoding Robust Topological Signatures for Hyperdimensional Computing

Méthode de calcul hyperdimensionnel robuste utilisant des signatures topologiques (trous, moments de Zernike invariants RTS) pour améliorer la robustesse aux rotations, bruits et occlusions. Tests sur MNIST/EMNIST montrent une meilleure robustesse qu'un baseline HD naïf et une compétitivité avec les CNN compacts.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

A Holistic Method for Superquadric Fitting Using Unsupervised Clustering Analysis

Nouvelle méthode pour ajuster des superquadriques à des nuages de points bruyants et contaminés par des valeurs aberrantes. Reformule le problème comme un clustering non supervisé unifié, permettant l'ajustement de superquadriques rigides et déformables. Fournit solutions analytiques fermées et garanties de convergence.

Papers Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

CANSURF: An ASV-View Can Dataset and Benchmark for Detection and Tracking of Surface-Level Debris

CANSURF : nouveau dataset de ~7.3k images annotées (expandu à ~57k via augmentation) pour la détection et le suivi de débris en surface (canettes aluminium). YOLOv11 entraîné sur CANSURF surpasse les datasets génériques de 12x. YOLOv11+ByteTrack offre les meilleures traces ; YOLOv11+SAHI améliore le rappel en champ lointain.

Benchmarks Vision Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Exploring Lightweight Large Language Models for Court View Generation

Étude systématique de modèles LLM légers (<2B paramètres) pour la génération de jugements criminels et la prédiction de charges. Développement de CVGEvalKit, framework d'évaluation avec 3 datasets publics. Comparaison d'architectures, tailles de modèles et approches directes vs. indirectes.

Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·19 mai

UniER: A Unified Benchmark for Item-level and Path-level Exercise Recommendation

UniER est un benchmark unifié pour la recommandation d'exercices pédagogiques, comparant deux paradigmes : ILER (recommandation au niveau item) et PLER (recommandation de parcours d'apprentissage). Le framework introduit la métrique Weighted Cognitive Gain (WCG) et évalue 18 méthodes sur 9 datasets. Les résultats montrent la supériorité systématique de PLER et les limites d'ILER en contexte de rareté de données.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.AI·19 mai

Genflow Ad Studio: A Compound AI Architecture for Brand-Aligned, Self-Correcting Video Generation

Genflow est une architecture IA composée pour la génération vidéo alignée à la marque. Elle combine un module d'extraction 'Brand DNA' par récupération et une boucle de contrôle qualité multi-agents adversariale. Le système itère entre générateurs et évaluateurs jusqu'à consensus, améliorant la conformité de 42% à 89%.

Multi-agents Génération de vidéos Agents IA

SIG

HYP

arXiv cs.AI·19 mai

Task Abstention for Large Language Models in Code Generation

Méthode pour que les LLM refusent de générer du code quand ils risquent d'halluciner. Utilise une règle d'abstention calibrée basée sur le test d'hypothèses multiples, évalue la cohérence via l'exécution du code. Garantie théorique distribution-free. Testé sur plusieurs LLM open-source.

Génération de code Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·19 mai

MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation

MAVEN est un framework multi-agent pour améliorer la fidélité culturelle dans la génération vidéo à partir de texte. Il décompose les prompts en dimensions personne/action/lieu traitées par des agents spécialisés. Benchmark de 243 prompts culturels et 972 vidéos (chinois, américain, roumain) avec évaluation CLIP + VLM.

Multi-agents Génération de vidéos Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

GeoWorld-VLM: Geometry from World Models for Vision-Language Models

GeoWorld-VLM améliore les capacités spatiales des Vision-Language Models en transférant des structures géométriques depuis des world models vidéo gelés. La méthode fine-tune uniquement l'encodeur d'image et le projecteur multimodal, alignant les représentations visuelles avec les représentations intermédiaires du world model. Gains de ~4% sur les benchmarks What'sUp et VSR.

Vision Raisonnement Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

EfficientTDMPC: Improved MPC Objectives for Sample-Efficient Continuous Control

EfficientTDMPC améliore l'efficacité échantillon du contrôle continu en renforcement par modèle. La méthode utilise un ensemble de modèles de dynamique, moyenne les estimations de rendement sur plusieurs profondeurs de rollout, et ajoute une pénalité d'incertitude au planificateur. Elle atteint SOTA sur HumanoidBench-Hard et DMC hard en régime faible données.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

Knowledge-to-Verification: Exploring RLVR for LLMs in Knowledge-Intensive Domains

K2V étend le reinforcement learning avec récompenses vérifiables (RLVR) aux domaines à forte intensité de connaissances via synthèse automatique de données vérifiables et vérification du processus de raisonnement. Les expériences montrent une amélioration du raisonnement sans dégradation significative des capacités générales.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.AI·19 mai

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

CHI-Bench évalue la capacité des agents IA à automatiser des workflows healthcare complexes (autorisation préalable, gestion d'utilisation, gestion des soins) sur 87 outils MCP et 20 applications. Le meilleur agent ne résout que 28% des tâches; aucun n'atteint 20% en mode strict. Performance chute à 3,8% en session unique.

Agents IA MCP Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

GraViti: Graph-Level Variational Autoencoders with Relaxed Permutation Invariance

GraViti est un autoencodeur variationnel basé transformer pour les graphes entiers, produisant un espace latent au niveau du graphe. Sur des benchmarks moléculaires, le modèle apprend à décoder des échantillons valides respectant les contraintes chimiques. L'étude montre que l'invariance de permutation peut nuire à la reconstruction cohérente quand un ordre canonique existe.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·19 mai

A Scalable Tool for Measuring Manner and Result Verbs in Developmental Language Research

Outil computationnel pour classifier les verbes de manière et de résultat à grande échelle. Utilise des prompts linguistiques avec LLM pour générer des annotations sur MASC et InterCorp (436 classes VerbNet), puis entraîne un classifieur RoBERTa. Performance : 89,6% de précision sur trois datasets gold-standard.

Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·19 mai

Context Memorization for Efficient Long Context Generation

Nouvelle méthode training-free pour optimiser l'inférence sur longs contextes : attention-state memory externalise le préfixe en mémoire légère de lookup d'états d'attention précomputés. Sur LLaMA-3.1-8B, améliore l'ICL à 1K-8K tokens, réduit latence attention de 1.36x à 8K, surpasse RAG full-attention avec 20% moins de mémoire.

Llama RAG Raisonnement

SIG

HYP

arXiv cs.CL·19 mai

Leveraging Graph Structure in Seq2Seq Models for Knowledge Graph Link Prediction

GA-S2S combine un encodeur-décodeur T5-small avec un Relational Graph Attention Network pour la prédiction de liens dans les graphes de connaissances. Le modèle encode conjointement les caractéristiques textuelles et la topologie complète du sous-graphe k-hop autour de l'entité requête, capturant les motifs relationnels multi-hop. Sur CoDEx, GA-S2S surpasse les baselines Seq2Seq avec un gain de 19% en précision.

Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

Learning How to Cube

Un framework neuro-symbolique entraîne un modèle 4B-paramètres à générer des heuristiques de cubing pour SAT via SFT+DPO. Le modèle atteint pass@5=53 sur 100 benchmarks SAT, égalant la meilleure heuristique symbolique et surpassant Claude-Sonnet-4 (50). Les données proviennent d'une pipeline MCTS explorant les décisions de splitting sur formules de compétition SAT.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

\textsc{PrivScope}: Task-scoped Disclosure Control for Hybrid Agentic Systems

PrivScope est un contrôleur de charge utile local qui applique une divulgation limitée au périmètre de la tâche à la frontière local-cloud pour les systèmes agents hybrides. Sur 100 workflows de réservation médicale, il élimine 100% des fuites de profil (vs 17,7%), réduit de moitié la réidentification (23,1% vs 64,3%) et maintient le succès des tâches sans modifications côté cloud.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

How Good LLMs Are at Answering Bangla Medical Visual Questions? Dataset and Benchmarking

BanglaMedVQA : nouveau benchmark de questions visuelles médicales en bengali avec paires image-question-réponse validées cliniquement. Évaluation de modèles fondateurs (Gemini, GPT-4.1 mini, Gemma-3) révèle performances substantiellement plus basses qu'en anglais, limitations sévères en raisonnement médical fin et diagnostic spécialisé.

Benchmarks Vision Gemini

SIG

HYP

arXiv cs.AI·19 mai

To Trust or Not to Trust: Authors' Response to AI-based Reviews

Étude sur 56 auteurs de 40 articles : 83,9% trouvent les revues IA utiles, 80,4% rapportent que l'IA identifie des problèmes manqués par les humains, 82,1% intègrent le feedback IA dans leur version finale. Cependant, les auteurs font moins confiance à l'IA qu'aux humains (51,8% signalent des inexactitudes mineures, 16,1% des erreurs graves). 96,4% accepteraient l'IA comme outil interne de révision avant soumission.

Évaluations Sécurité IA Régulation

SIG

HYP

arXiv cs.AI·19 mai

Why Modeling Human Haptic Material Perception with AI Is Difficult

Article de position sur les défis de la modélisation de la perception haptique humaine par l'IA. Identifie trois goulots : rareté des datasets haptiques diversifiés, absence de benchmarks standardisés, limitations des modèles en capacité et interprétabilité. Appelle à des efforts interdisciplinaires pour progresser.

Papers Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

MATE: Solving Contextual Markov Decision Processes with Memory of Accumulated Transition Embeddings

MATE est une architecture mémoire pour résoudre les processus décisionnels de Markov contextuels (CMDP). Elle remplace la distribution a posteriori intractable par une mémoire agrégée par somme, évitant les coûts de calcul croissants des Transformers et les problèmes de gradient des RNN. Les évaluations montrent des avantages computationnels avec performance comparable aux baselines.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·19 mai

How Few-Shot Examples Add Up: A Causal Decomposition of Function Vectors in In-Context Learning

Étude mécanistique de l'apprentissage en contexte (ICL) : les vecteurs de fonction n-shot se décomposent linéairement en contributions d'exemples individuels. Les modèles repondèrent adaptivement les démonstrations via attention, privilégiant les exemples informatifs et non-ambigus. L'alignement Query-Key domine la qualité du vecteur de fonction.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.AI·19 mai

Voice ''Cloning'' is Style Transfer

Des chercheurs montrent que le clonage vocal n'est pas une copie fidèle mais un transfert de style : les voix clonées sont perçues comme plus autoritaires, chaleureuses et humaines que les originales. Le clonage homogénéise aussi les caractéristiques vocales (accent, débit). Ces résultats révèlent des risques comportementaux et éthiques.

Voix Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Wavelet Flow Matching for Multi-Scale Physics Emulation

Wavelet Flow Matching (WFM) est un émulateur génératif pour systèmes physiques multi-échelles régis par EDPs. Il effectue le transport optimal directement dans l'espace wavelet hiérarchique d'un U-Net, sans autoencoder pré-entraîné. Sur trois systèmes de dynamique fluide chaotique, WFM surpasse les modèles SOTA en stabilité long-horizon, précision et cohérence spectrale.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

Automatic Unsupervised Ensemble Outlier Model Selection--Extended Version

MetaEns, un framework automatisé pour sélectionner des ensembles de modèles de détection d'anomalies sans supervision. Utilise des meta-datasets étiquetés pour prédire les gains marginaux d'ensemble et applique une sélection gloutonne avec arrêt adaptatif. Testé sur 39 datasets réels : surpasse les baselines en précision avec moins de modèles.

Évaluations Benchmarks Papers

SIG

HYP

arXiv cs.AI·19 mai

RAPT: Retrieval-Augmented Post-hoc Thresholding for Multi-Label Classification

RAPT est un wrapper de post-traitement retrieval-augmented pour améliorer la sélection d'étiquettes en classification multi-label sans réentraînement. Appliqué à des encodeurs metric learning et transformers fine-tunés, RAPT atteint 0.87 Macro-F1 sur données industrielles, surpassant les baselines statiques et les LLMs few-shot (K=5) avec 115x moins de temps d'inférence.

RAG Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·19 mai

Ablating Safety: Mechanisms for Removing Alignment in Language Models for Security Applications

Étude sur le retrait contrôlé de l'alignement de sécurité dans les modèles de langage pour évaluer les capacités en cybersécurité. Compare prompting en contexte autorisé, projection de direction de refus et LoRA. Sur 60 tâches (Security-AR), la projection LoRA seule atteint 0,87 en score sécurité avec 0,83 en capacités générales, mais augmente la conformité dangereuse non autorisée.

Sécurité IA Alignement Fine-tuning

SIG

HYP

Hacker News (AI)·19 mai

LLMCap – A proxy that hard-stops LLM API calls when you hit a dollar cap

LLMCap est un proxy qui interrompt automatiquement les appels API LLM lorsqu'un plafond budgétaire en dollars est atteint. Outil de contrôle des coûts pour éviter les dépassements lors de l'utilisation d'API LLM.

Outils Infrastructure

SIG

HYP

Reddit r/MachineLearning·19 mai

How to get rejected by IEEE T-PAMI with 'Excellent' scores?[D]

Un chercheur junior dénonce le rejet de son article par IEEE T-PAMI malgré trois avis positifs (2 EXCELLENT, 1 BON). L'éditeur aurait cité un 4e reviewer dont l'avis positif aurait été retiré du système avant la décision finale. Six mois après plainte à IEEE Ethics, aucune réponse directe.

Papers Régulation

SIG

HYP

Hacker News (AI)·19 mai

Google, Blackstone to Create AI Cloud Firm with In-House Chips

Google et Blackstone créent une joint-venture pour une plateforme cloud IA avec puces propriétaires. L'initiative vise à réduire la dépendance aux fournisseurs externes et offrir une infrastructure IA optimisée aux clients institutionnels.

Infrastructure Business

SIG

HYP

Le Big Data·19 mai

Aïe ! Gemini Intelligence sera limité à quelques smartphones, le vôtre sera-t-il compatible ?

Google déploie Gemini Intelligence sur Android avec des restrictions matérielles. Seuls certains smartphones compatibles pourront accéder aux nouvelles fonctionnalités IA, limitant l'adoption initiale.

Gemini

SIG

HYP

Hacker News (AI)·19 mai

Sieve – scans Cursor/Claude chat history for leaked API keys

Sieve est un outil qui analyse l'historique de chat Cursor/Claude pour détecter les clés API exposées. Utile pour identifier les fuites de secrets dans les conversations avec les assistants IA.

Claude Outils Sécurité IA

SIG

HYP

Hacker News (AI)·19 mai

We built a runtime activation layer for autonomous AI agents

Une équipe a développé une couche d'activation runtime pour les agents IA autonomes, permettant un contrôle et une supervision en temps réel des comportements d'agents sans modification du modèle sous-jacent.

Agents IA Sécurité IA Infrastructure

SIG

HYP

Hacker News (AI)·19 mai

Research shows a clear and communicated AI stance acts as a powerful amplifier

Une étude montre qu'une position IA claire et communiquée amplifie fortement l'impact organisationnel. Les entreprises avec une stratégie IA explicite obtiennent de meilleurs résultats que celles sans positionnement défini.

Business

SIG

HYP

Hacker News (AI)·19 mai

People who use ChatGPT for writing are accurate detectors of AI text (2025)

Une étude 2025 montre que les utilisateurs réguliers de ChatGPT détectent mieux le texte généré par IA que les non-utilisateurs. Les résultats suggèrent une familiarité accrue avec les patterns d'écriture des modèles de langage.

GPT Évaluations

SIG

HYP

Hacker News (AI)·19 mai

Can AI just replace me already? – A comparative AI-writing ID experiment

Expérience comparative testant la capacité des IA à identifier automatiquement le texte généré par IA versus écrit par humain. Résultats sur l'efficacité des détecteurs et implications pour l'authentification de contenu.

Évaluations

SIG

HYP

Hacker News (AI)·19 mai

Google's Own AI Researchers Jockey for Access to Its Computing

Les chercheurs en IA de Google se disputent l'accès aux ressources de calcul de l'entreprise. La demande interne dépasse l'offre disponible, créant des goulots d'étranglement pour les projets de recherche.

DeepMind Infrastructure

SIG

HYP

Reddit r/MachineLearning·19 mai

We built a tool that installs frameworks like ComfyUI, Ollama, OpenWebUI etc on any cloud GPU in one command and saves your whole setup between sessions [R]

swm est un outil open-source qui automatise l'installation de frameworks (ComfyUI, Ollama, OpenWebUI, vLLM) sur GPU cloud en une commande. Il agrège les prix de 10+ fournisseurs (RunPod, Vast.ai, Lambda), synchronise les workspaces via S3, et termine automatiquement les instances inactives après 30 min pour réduire les coûts.

Outils Open source Infrastructure

SIG

HYP

Hacker News (AI)·19 mai

SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference

SuperInfer propose une méthode de scheduling rotatif et gestion mémoire pour l'inférence LLM, optimisée pour respecter les SLO (Service Level Objectives). Approche système pour réduire latence et consommation mémoire.

Infrastructure Benchmarks

SIG

HYP

Simon Willison·19 mai

The last six months in LLMs in five minutes

Simon Willison résume six mois de développements LLM en cinq minutes de lightning talk à PyCon US 2026. Le point d'inflexion de novembre 2025 marque un tournant critique, notamment pour le code. Le meilleur modèle a changé de mains 5 fois entre Anthropic, OpenAI et Google.

Claude GPT Gemini

SIG

HYP

Hacker News (AI)·19 mai

Google, Blackstone plan AI cloud venture with $5B backing, WSJ reports

Google et Blackstone préparent une coentreprise cloud IA avec 5 milliards de dollars de financement selon le WSJ. Le projet vise à offrir une infrastructure cloud spécialisée pour les applications d'IA aux entreprises.

Infrastructure Business

SIG

HYP

Hacker News (AI)·19 mai

Melbourne psychiatrist refuses new patients who don't consent to AI note-taking

Un psychiatre de Melbourne refuse les nouveaux patients qui ne consentent pas à l'utilisation d'IA pour la prise de notes cliniques. La pratique soulève des questions éthiques sur le consentement, la confidentialité et l'automatisation des dossiers médicaux.

Régulation Sécurité IA Alignement

SIG

HYP

Reddit r/LocalLLaMA·19 mai

club-5060ti follow-up: cleaner RTX 5060 Ti local LLM recipes, benchmark explorer, and CUDA GPU compatibility notes

Mise à jour du projet club-5060ti : repo structuré de benchmarks et recettes pour LLM locaux sur RTX 5060 Ti. Inclut explorateur de résultats statique, schéma JSON validé, recettes single/dual-card, support llama.cpp/vLLM. Baseline : RTX 5060 Ti 16GB. Recommande llama.cpp/GGUF pour GPU mixtes, vLLM NVFP4/MTP spécifique à Blackwell.

Open source Benchmarks Infrastructure

SIG

HYP

Hugging Face Blog·19 mai

Introducing the Ettin Reranker Family

Hugging Face présente la famille de modèles Ettin Reranker, conçus pour améliorer la pertinence des résultats de recherche et RAG. Ces rerankers optimisent le classement des documents après une première phase de récupération.

RAG Recherche vectorielle Outils

SIG

HYP

Vercel AI Blog·19 mai

Flat Rate CDN in Limited Beta

Vercel lance Flat Rate CDN en bêta limitée pour les équipes Pro. Ce service remplace la tarification à l'usage par un forfait mensuel fixe, couvrant les pics de trafic sans surcoûts.

Infrastructure Business

SIG

HYP

Reddit r/MachineLearning·18 mai

Released a free 9.8M doc Indic multilingual corpus — Hindi, Bengali, Tamil, Telugu + 7 more (CC0, HuggingFace) [P]

Corpus multilingue gratuit de 9,8M documents couvrant 11 langues indiennes (hindi, bengali, tamoul, télougou, marathi, goujarati, kannada, malayalam, pendjabi, ourdou, anglais). 8,4B tokens, licence CC0, disponible sur HuggingFace.

Open source Embeddings

SIG

HYP

Vercel AI Blog·18 mai

Run Claude Managed Agents with Vercel Sandbox

Vercel intègre Claude Managed Agents dans Vercel Sandbox. Les agents tournent dans des microVMs Firecracker isolées avec accès aux APIs privées et données client. Credential brokering et deny-by-default egress sécurisent l'exécution.

Claude Agents IA Infrastructure

SIG

HYP

Hacker News (AI)·18 mai

Tech bros say AI can be your best friend. Experts explain why it can't

Des experts critiquent la promesse des entrepreneurs tech selon laquelle l'IA pourrait devenir votre meilleur ami. Ils expliquent les limites fondamentales : absence de conscience, d'empathie véritable et de réciprocité émotionnelle dans les systèmes actuels.

Sécurité IA Alignement

SIG

HYP

Hacker News (AI)·18 mai

AI-Governed EV Charging Could Extend Battery Life Nearly 23%

Un système de gestion de charge de véhicules électriques piloté par IA pourrait prolonger la durée de vie des batteries de près de 23%. La recherche démontre l'optimisation des cycles de charge via algorithmes d'apprentissage automatique.

Reinforcement learning

SIG

HYP

Hacker News (AI)·18 mai

Show HN: Clawputer – A personal AI assistant with a real computer and memory

Clawputer est un assistant IA personnel avec accès à un vrai ordinateur et mémoire persistante. Le projet, présenté sur Hacker News, offre une interface pour que l'IA interagisse directement avec le système d'exploitation et conserve le contexte entre sessions.

Agents IA Outils

SIG

HYP

Reddit r/LocalLLaMA·18 mai

Memory expert suspects RAM price drop in 2027'H2 due to china heavy investments

Un ancien cadre de Samsung prédit une baisse des prix de la RAM en H2 2027, due aux investissements agressifs des entreprises chinoises. ChangXin Memory Technologies (CXMT) augmente sa capacité de 280k à 300k+ wafers/mois via un IPO de $4.2Mrd, avec focus sur HBM et DDR5 avancé.

Infrastructure Business

SIG

HYP

Reddit r/MachineLearning·18 mai

MLRC 2026 is open for submissions - an official track at NeurIPS 2026 [N]

Le Machine Learning Reproducibility Challenge 2026 ouvre ses soumissions comme piste officielle de NeurIPS 2026 à Sydney en décembre. Les travaux acceptés via TMLR seront présentables à la conférence.

Papers Benchmarks Évaluations

SIG

HYP

Reddit r/LocalLLaMA·18 mai

21 GPU's benchmarked running a small TTS model (vram peak: 5GB)

Benchmark de 21 GPU (mostly consumer) sur le modèle TTS OmniVoice (5GB VRAM peak). Testé via vast.ai, mesure xRT (vitesse relative au temps réel). RTX 3090 comme référence. 3 runs par GPU sur petit paragraphe avec clonage vocal.

Voix Benchmarks Outils

SIG

HYP

Hacker News (AI)·18 mai

Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment

Un article théorique sur comment le discours public autour de l'alignement IA peut créer des prophéties auto-réalisatrices. L'auteur argue que les narratifs dominants sur le risque d'alignement influencent le développement réel des modèles, créant potentiellement les problèmes qu'on cherche à éviter.

Alignement Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·18 mai

MTP (Multi-Token Prediction): 2x Faster Token Generation on AMD Strix Halo & Radeon 9700 AI Pro

MTP (Multi-Token Prediction) accélère l'inférence LLM de 2x, particulièrement pour les agents de code. Démonstration de performance sur Qwen 3.6 avec AMD Strix Halo et Radeon 9700 AI Pro.

Qwen Génération de code Agents IA

SIG

HYP

Reddit r/LocalLLaMA·18 mai

Lemonade v10.5.1: an MTP + ROCm 7.13 quick start for Strix Halo

Lemonade v10.5.1 sort avec support MTP et ROCm 7.13 pour Strix Halo. Permet de charger Qwen3.6-27B-MTP-GGUF avec arguments MTP auto-appliqués. Corrige aussi le support Fedora 43.

Qwen Open source Infrastructure

SIG

HYP

Vercel AI Blog·18 mai

Consolidated Commit Status now available on GitHub

Vercel permet aux monorepos de consolider les statuts de commit GitHub en un seul statut par PR au lieu d'un par projet. Les équipes configurent une seule fois la protection de branche GitHub et gèrent les projets Vercel requis pour la fusion dans les paramètres de chaque projet.

Outils Infrastructure

SIG

HYP

Vercel AI Blog·18 mai

Firewall‑mitigated traffic is free on Vercel

Vercel supprime les frais de CDN Requests et Fast Data Transfer pour le trafic bloqué, challengé ou rate-limité par son Web Application Firewall (WAF). La mesure s'applique automatiquement à tous les projets utilisant Vercel Firewall, sans configuration requise.

Infrastructure Outils

SIG

HYP

Hacker News (AI)·18 mai

NHS to close-source GitHub repos over AI, security concerns

Le NHS ferme l'accès public de ses dépôts GitHub en raison de préoccupations concernant l'IA et la sécurité. La décision vise à empêcher l'entraînement de modèles IA sur du code médical sensible et à réduire les risques de sécurité.

Sécurité IA Régulation Open source

SIG

HYP

Hacker News (AI)·18 mai

Show HN: Enhanced Copy – copy buttons that include the site's AI prompt

Enhanced Copy est un outil qui ajoute des boutons de copie incluant le prompt IA du site. Permet de capturer facilement les instructions système utilisées par les services web.

Outils Prompt engineering

SIG

HYP

Reddit r/MachineLearning·18 mai

Rewriting model inference with CUDA kernels: the bottleneck was not just GEMM [P]

Développement d'un runtime CUDA optimisé pour l'inférence petit batch (robotique, VLA). Les goulots d'étranglement ne sont pas les GEMM seuls mais les surcoûts runtime : fragmentation kernels, transitions layout, conversions précision (FP8/FP4), scheduling Python. Résultats : Pi0.5 sur RTX 5090 ~17.6ms, GROOT N1.6 ~12.5-13.1ms, Qwen 27B ~129 tok/s.

Génération de code Infrastructure Robotique

SIG

HYP