Page 27 sur 192

ToutHaut signalRécent

7679 articles

(Sparse) Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models

Mosaic, un modèle probabiliste de prévision météorologique, corrige trois défaillances spectrales des modèles ML : l'amortissement spectral, l'aliasing haute fréquence et les fuites résiduelles. Avec 214M paramètres à 1.5° de résolution, il égale des modèles entraînés 6× plus fins et génère des ensembles bien calibrés en 12s pour 10 jours sur H100.

Papers Benchmarks Vision

SIG

HYP

arXiv cs.AI·19 mai

IVF-TQ: Streaming-Robust Approximate Nearest Neighbor Search via a Codebook-Free Residual Layer

IVF-TQ propose un index IVF avec couche résiduelle sans codebook : rotation aléatoire fixe + quantification scalaire Lloyd-Max précomputée. Réduit la dégradation en streaming (Deep-10M : -0.80pp vs IVF-PQ -3.23pp). Code disponible.

Recherche vectorielle Benchmarks Papers

SIG

HYP

arXiv cs.CL·19 mai

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusifs en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progrès de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 5.6pp en raisonnement mathématique.

Reinforcement learning Génération de code Raisonnement

SIG

HYP

arXiv cs.AI·19 mai

PROTEA: Offline Evaluation and Iterative Refinement for Multi-Agent LLM Workflows

PROTEA est une interface pour déboguer et affiner les workflows multi-agents LLM hors ligne. Elle évalue les sorties intermédiaires avec des rubriques configurables, localise les goulots d'étranglement via le graphe du workflow, et génère des révisions de prompts ciblées. Sur deux workflows en production, PROTEA améliore la précision de 64,3% à 83,9% et le Hit@5 de 0,30 à 0,38.

Multi-agents Agents IA Prompt engineering

SIG

HYP

arXiv cs.CL·19 mai

FishBack: Pullback Fisher Geometry for Optimal Activation Steering in Transformers

FishBack propose une méthode d'activation steering basée sur la géométrie de Fisher pour les transformers. Les auteurs montrent que l'espace d'activation n'est pas euclidien (déviation >97% sur GPT-2) et dérivent une équation de steering optimale en forme fermée. La méthode surpasse CAA, ActAdd et ITI de 1.3×–2.5× sur la réduction KL hors-cible.

Raisonnement Papers Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

DISA: Offline Importance Sampling for Distribution-Matching LLM-RL

DISA est une méthode d'RL hors-ligne pour les LLM qui découple l'estimation de la fonction de partition (via importance sampling) de l'optimisation de la politique. Sur 9 benchmarks (math et code), elle égale ou surpasse FlowRL, dépasse GRPO/GSPO, et conserve plus de diversité stratégique que les baselines de maximisation de récompense.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

TClone: Low-Latency Forking of Live GUI Environments for Computer-Use Agents

TClone est un système de workspace personnel forkable pour agents informatiques. Il permet de snapshotter, forker, et rollbacker une GUI interactive en direct, avec isolation et versioning rapide. Utilise containers siblings, copy-on-write mémoire, versioning filesystem et checkpointing asynchrone. Réduit latence totale de 1.9x vs KVM et 1.5x vs CRIU.

Agents IA Infrastructure Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

ProxyKV propose un framework de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une Small-Model Proxy légère évalue l'importance du cache KV de manière asynchrone pour le modèle cible. Tests sur Llama-3.1, Qwen-2.5 et Qwen-3 : récupère 98.7% de la précision de KVZip avec speedup jusqu'à 3.21× en prefilling (Llama-3.1-8B, dual-GPU) et maintient les gains jusqu'à 170k tokens.

Llama Qwen Raisonnement

SIG

HYP

arXiv cs.LG·19 mai

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Optimisation systématique de modèles de diffusion en temps réel sur Apple M3 Ultra (GPU 60-cœurs, 512 GB mémoire unifiée). Combinaison de CoreML, quantization, Token Merging, distillation (SDXS-512) et pipeline caméra 3-threads atteint 22.7 FPS à 512×512. Révèle que les optimisations CUDA ne s'appliquent pas à l'architecture mémoire unifiée d'Apple Silicon.

Génération d'images Benchmarks Infrastructure

SIG

HYP

arXiv cs.CL·19 mai

Scale Determines Whether Language Models Organize Representation Geometry for Prediction

Étude sur l'organisation géométrique des représentations dans les modèles de langage selon leur échelle. Subspace PGA mesure l'alignement de la géométrie intermédiaire avec la matrice d'unembedding. Modèles petits (≤1024) perdent progressivement cette organisation aux couches tardives, tandis que grands modèles (≥2048) la préservent. L'échelle détermine comment la géométrie s'organise pour la prédiction.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback

Méthodologie d'évaluation comportementale pour systèmes IA agentiques : scoring des décisions intermédiaires via juges LLM sur 6 dimensions (détection de régime, routage, adaptation, calibrage du risque, cohérence stratégique, récupération d'erreur). Score comportemental corrèle à rho=0.72 avec Sharpe ratio. Boucle fermée avec renforcement (SAC) réduit MAPE de 0.61% à 0.54% sur test 2017-2025.

Agents IA Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·19 mai

WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games

WebGameBench est un benchmark évaluant si les agents de code peuvent transformer une spécification de jeu web en application jouable dans un navigateur. Sur 111 tâches et 12 agents, le meilleur atteint 76,9% de taux utilisable mais seulement 20,2% excellent, révélant un écart entre livraison minimale et satisfaction complète des exigences.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.LG·19 mai

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusion en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progression de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 36.3pp en satisfaction de contraintes.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

arXiv cs.AI·19 mai

Beyond LoRA vs. Full Fine-Tuning: Gradient-Guided Optimizer Routing for LLM Adaptation

Nouvelle méthode MoLF (Mixture of LoRA and Full) pour l'adaptation de LLM qui route dynamiquement les gradients entre fine-tuning complet et LoRA au niveau de l'optimiseur. Testée sur Gemma-3-1B, Qwen2.5-1.5B/3B sur tâches SQL, Medical QA et connaissance contrefactuelle. MoLF-Efficient surpasse les approches LoRA adaptatives de 20% (Fact) et 9% (Med/SQL). Code open-source disponible.

Fine-tuning Benchmarks Open source

SIG

HYP

arXiv cs.AI·19 mai

Evaluating AI Alignment in LLMs: Output Analysis of Value Priorities Across 75 Models with Human Benchmarking

Étude d'alignement IA sur 75 LLMs comparés à 376 humains. Analyse qualitative identifie 6 thèmes de fonctionnement optimal (Performance, Capacité Adaptative, Bien Social, Éthique, Intégration Relationnelle, Agentivité). Les modèles reproduisent l'ordre des valeurs humaines mais exagèrent systématiquement les différences. La fidélité de profil ne corrèle pas avec la taille ou la récence du modèle.

Alignement Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages

UbuntuGuard est le premier benchmark de sécurité basé sur des politiques pour les langues africaines. Construit à partir de 155 experts du domaine, il évalue 15 modèles (7 LLM génériques, 8 modèles de garde) sur trois variantes. Les résultats montrent que les benchmarks anglais surestiment la sécurité multilingue réelle et que le transfert cross-lingue reste insuffisant.

Sécurité IA Benchmarks Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models

Les chercheurs identifient l'Entropy-Gradient Inversion, une corrélation négative entre l'entropie des tokens et les gradients de logits, comme signature géométrique des capacités de raisonnement des grands modèles. Ils proposent CorR-PO, une méthode d'optimisation par renforcement intégrant cette signature dans la régularisation des récompenses, surpassant les baselines sur plusieurs benchmarks de raisonnement.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Toward Robust Multilingual Adaptation of LLMs for Low-Resource Languages

LiRA, un framework de fine-tuning léger, améliore l'adaptation des LLM aux langues peu dotées en ressources via l'alignement sémantique cross-lingue. Combine Arca (alignement basé ancres vers l'anglais) et LaSR (tête language-aware). Garanties théoriques de stabilité. Dataset multilingue (7 langues asiatiques) et code publics.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Beyond Execution: Static-Analysis Rewards and Hint-Conditioned Diffusion RL for Code Generation

Étude empirique de RL post-training pour la génération de code par diffusion. Les auteurs proposent des récompenses sans exécution (static checking) et un échantillonnage conditionné par hints AST pour contourner le « capability cliff ». Static checking améliore DiffuCoder de 53.9 à 67.1 sur HumanEval et réduit le temps de rollout de 9.4%.

Génération de code Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark

SomaliWeb v1 : corpus Somali de 819 322 documents (~303M tokens) avec tokenizer BPE-16K et benchmark d'identification de langue. Révèle défauts critiques dans HPLT v2 (17,3% doublons exacts, 56,1% mojibake, 10,7% quasi-doublons). Tokenizer 40,2% plus efficace que cl100k_base sur FLORES-200.

Embeddings Benchmarks Open source

SIG

HYP

arXiv cs.CL·19 mai

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

DashAttention propose une méthode d'attention hiérarchique différentiable utilisant la transformation α-entmax pour sélectionner adaptativement un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton surpasse FlashAttention-3.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

CAM-VFD: Cross-Attention Multimodal Video Forgery Detection

CAM-VFD détecte les deepfakes vidéo en analysant les contradictions entre modalités (apparence, mouvement, profondeur) via mécanisme cross-attention. Atteint 95,31% sur GenVidBench et 93,43% sur GenVideo avec robustesse aux compressions et perturbations adversariales.

Vision Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·19 mai

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

Nouvelle métrique appelée Refusal Index (RI) pour mesurer la capacité des LLM à refuser les questions hors de leur connaissance. RI corrèle la probabilité de refus avec la probabilité d'erreur via la corrélation de Spearman. Tests sur 16 modèles et 5 datasets montrent que le comportement de refus des LLM reste fragile malgré une haute précision factuelle.

Évaluations Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·19 mai

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning

R-AIRL (Reasoning Adversarial Inverse Reinforcement Learning) infère des fonctions de récompense au niveau du processus à partir des chaînes de pensée d'experts, sans nécessiter de récompenses explicites. Testé sur GSM8K, MMLU-Pro et MedReason : améliore pass@1 de 17,4 points en reranking, surpasse SFT en post-training, localise les défaillances de raisonnement avec 86,1% de précision.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

DynMuon: A Dynamic Spectral Shaping View of Muon

DynMuon étend Muon en remplaçant la mise à jour M par U·Σ^p·V† avec un paramètre p dynamique. La théorie montre que p positif accélère la contraction du signal en début d'entraînement, tandis que p légèrement négatif réalloue la force de mise à jour vers les directions basse-courbure en fin d'entraînement. DynMuon réduit de 10,6-26,5% le nombre d'étapes pour atteindre une perte cible donnée.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·19 mai

LoopQ: Quantization for Recursive Transformers

LoopQ est un framework de quantification post-entraînement (PTQ) conçu pour les modèles de langage récursifs (LoopLMs) qui réutilisent les blocs Transformer. Il résout trois défis : décalage de distribution entre rôles, réutilisation d'état entre boucles, et accumulation d'erreur récursive. Sous quantification W4A4, LoopQ améliore la précision de 68,8% et réduit la perplexité de 87,7% vs baseline PTQ statique.

Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

PopPy: Opportunistically Exploiting Parallelism in Python Compound AI Applications

PopPy est un système qui découvre automatiquement les opportunités de parallélisation dans les applications Python composites (appels multiples à des modèles ML). Sur des applications réelles, PopPy atteint des accélérations jusqu'à 6.4× en temps d'exécution bout-en-bout, combinant un compilateur ahead-of-time et un runtime pour gérer la complexité du langage, le dispatch dynamique et les mutations de variables.

Agents IA Génération de code Infrastructure

SIG

HYP

arXiv cs.AI·19 mai

SVFSearch: A Multimodal Knowledge-Intensive Benchmark for Short-Video Frame Search in the Gaming Vertical Domain

SVFSearch est un benchmark multimodal pour la recherche de frames dans des vidéos courtes du domaine gaming chinois. Il contient 5 000 exemples de test et 4 198 exemples d'entraînement basés sur des scènes de jeux réelles. L'évaluation compare QA direct, RAG, agents Plan-Act-Replan et modèles de recherche appris : le meilleur modèle open-source atteint 66,4%, le meilleur agent pratique 79,1%, oracle 95,4%.

Benchmarks Agents IA RAG

SIG

HYP

arXiv cs.AI·19 mai

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

PROF, une méthode de sélection de données, combine les récompenses de processus (PRM) et de résultat (ORM) pour améliorer l'apprentissage par renforcement sur les tâches de raisonnement. Elle filtre les exemples d'entraînement en gardant les réponses correctes avec bon support processus et les réponses incorrectes avec faible support, évitant l'instabilité de l'optimisation directe des PRM.

Reinforcement learning Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·19 mai

AutoVecCoder: Teaching LLMs to Generate Explicitly Vectorized Code

AutoVecCoder enseigne aux LLMs à générer du code vectorisé explicite via SIMD. Le framework combine VecPrompt (synthèse de données pour injecter la connaissance des intrinsics) et VecRL (apprentissage par renforcement aligné sur l'efficacité). AutoVecCoder-8B atteint l'état de l'art sur SimdBench (SSE/AVX) et surpasse parfois les optimisations -O3.

Génération de code Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

ConsumerSimBench, benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro atteint seulement 47,8% de couverture des critères, révélant un écart majeur entre performance technique et intuition consommateur ancrée socialement.

Benchmarks Évaluations GPT

SIG

HYP

arXiv cs.AI·19 mai

Adversarial Fragility and Language Vulnerability in Clinical AI: A Systematic Audit of Diagnostic Collapse Under Imperceptible Perturbations and Cross-Lingual Drift in Low-Resource Healthcare Settings

Audit systématique de deux vulnérabilités critiques dans l'IA clinique : fragilité adversariale et dérive linguistique. Sur CheXNet (DenseNet121), la précision s'effondre de 89,3% à 62,0% sous perturbation FGM imperceptible (epsilon=0,021). Llama3.1:8b et NatLAS montrent dégradation majeure sur pidgin nigérian et yoruba (80%→65%, 85%→55%). Défenses standard inefficaces.

Sécurité IA Alignement Évaluations

SIG

HYP

arXiv cs.AI·19 mai

LiTS: A Modular Framework for LLM Tree Search

LiTS est un framework Python modulaire pour le raisonnement LLM via tree search. Il décompose la recherche en trois composants réutilisables (Policy, Transition, RewardModel) compatibles avec MCTS et BFS. Tests sur MATH500, Crosswords et MapEval montrent l'orthogonalité composants-algorithmes. Découverte clé : la diversité de la policy LLM, non la qualité de la récompense, est le goulot en espaces d'actions infinis.

Raisonnement Agents IA Open source

SIG

HYP

arXiv cs.AI·19 mai

DocReward: A Document Reward Model for Structuring and Stylizing

DocReward est un modèle de récompense évaluant la structure et le style des documents professionnels, indépendamment de la qualité textuelle. Entraîné sur DocPair (117K paires de documents, 32 domaines), il surpasse GPT-4 de 14,6 points et guide efficacement les agents via RL vers une meilleure professionnalité structurelle et stylistique.

Reinforcement learning Agents IA Évaluations

SIG

HYP

arXiv cs.AI·19 mai

Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Beacon est un benchmark de diagnostic qui mesure la sycophantie (biais vers l'accord avec l'utilisateur) dans 12 modèles SOTA. Les auteurs décomposent ce biais en sous-composantes linguistiques et affectives, et proposent des interventions au niveau du prompt et de l'activation pour le moduler. La sycophantie émerge d'un compromis structurel entre véracité et soumission polie.

Alignement Sécurité IA Évaluations

SIG

HYP

arXiv cs.AI·19 mai

AdaptiveLoad: Towards Efficient Video Diffusion Transformer Training

AdaptiveLoad optimise l'entraînement des Transformers de diffusion vidéo (DiT, MMDiT) en résolvant le déséquilibre de charge causé par la complexité quadratique de l'attention. Deux composants : équilibrage adaptatif dual et kernel CUDA LayerNorm-Modulate fusionné. Sur Wan 2.1 : déséquilibre computationnel réduit de 39% à 18,9%, utilisation VRAM +22,7%, débit +27,2%.

Génération de vidéos Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·19 mai

Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex

MINE (Mechanistically Interpretable Neural Encoding) applique les outils d'interprétabilité mécanique aux réseaux de neurones pour identifier les caractéristiques visuelles qui activent chaque voxel du cortex visuel humain. Validation par génération d'images et édition contrefactuelle : insérer/retirer les features prédites modifie l'activation neuronale comme prévu.

Vision Papers

SIG

HYP

arXiv cs.AI·19 mai

Ensemble Monitoring for AI Control: Diverse Signals Outweigh More Compute

Étude montrant que des ensembles diversifiés de moniteurs détectent mieux les actions mal alignées d'agents IA que des ensembles homogènes. 12 moniteurs GPT-4.1-Mini (prompting + fine-tuning) évalués sur tâches de code : le meilleur ensemble de 3 moniteurs atteint 2.4x plus de gain de détection qu'un ensemble de 3 moniteurs identiques, avec généralisation sur données indépendantes.

Sécurité IA Alignement Agents IA

SIG

HYP

arXiv cs.CL·19 mai

STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

STT-Arena est un benchmark de 227 tâches interactives évaluant la capacité des LLM à adapter leurs plans face à des changements spatio-temporels dynamiques. Claude-4.6-Opus atteint moins de 40% de précision. Les auteurs identifient trois modes d'erreur récurrents et proposent STT-Agent-4B combinant raffinement de trajectoire et RL en ligne.

Agents IA Benchmarks Reinforcement learning

SIG

HYP

arXiv cs.AI·19 mai

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

RTPurbo transforme les LLM en modèles sparse en ~100 étapes d'entraînement. L'approche exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection top-p dynamique surpasse top-k fixe. Résultats : 9.36× speedup prefill à 1M tokens, 2.01× speedup decode, précision préservée.

Raisonnement Benchmarks

SIG

HYP