Page 4 sur 192

ToutHaut signalRécent

7679 articles

KVarN: Variance-Normalized KV-Cache Quantization [R]

KVarN est une méthode de quantification KV-Cache combinant rotations Hadamard et normalisation de variance sur K et V. Atteint 3-4x compression avec 0-1% de perte sur AIME24 et accélération en vLLM. Optimisé pour settings decode-heavy (reasoning, code-gen, agents).

Génération de code Raisonnement Agents IA

SIG

HYP

Reddit r/LocalLLaMA·4 juin

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

NVIDIA publie Nemotron-3-Ultra-550B, modèle frontier de 550B paramètres (55B actifs) avec architecture LatentMoE hybride Mamba-2 + MoE + Attention. Contexte jusqu'à 1M tokens, raisonnement configurable, optimisé pour agents complexes et RAG haute-fidélité. Licence OpenMDW, 11 langues supportées.

Open source Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·4 juin

MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation

MapAgent est une architecture multi-agent pour générer des cartes routières au niveau des voies à l'échelle urbaine. Le système couple perception visuelle, vérification de spécifications et édition déterministe via une boucle Judge-Planner-Worker. Intégré à Baidu Maps pour 360+ villes, il atteint 95% d'automatisation en production.

Agents IA Multi-agents Vision

SIG

HYP

arXiv cs.CL·4 juin

SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference

SparDA introduit une architecture d'attention clairsemée découplée pour l'inférence LLM sur contextes longs. Une quatrième projection par couche (Forecast) prédit les blocs KV nécessaires à la couche suivante, chevauchant le préchargement CPU-GPU avec l'exécution courante. Sur modèles 8B, SparDA atteint 1.25× speedup prefill et 1.7× speedup decode, jusqu'à 5.3× throughput decode supérieur.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.CL·3 juin

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Audit systématique des benchmarks FOLIO et MALLS révélant 39% et 36% d'erreurs dans les formalisations FOL. Les auteurs publient des annotations corrigées et un framework LLM pour guider la relabélisation manuelle, permettant d'atteindre 90% de précision en révisant <24% des instances. Tests sur Gemma 31B, Qwen3-30B et GPT-4o-mini montrent des gains de +9 à +22 points.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.AI·3 juin

MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents

MedCUA-Bench est un benchmark interactif pour évaluer les agents informatiques dans les interfaces cliniques. Il couvre 18 scénarios médicaux sur 10 domaines avec interfaces authentiques. Les meilleurs modèles fermés atteignent 54,2% de succès strict, les agents open-source 2,5% en moyenne, révélant un écart majeur avec la fiabilité requise.

Agents IA Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·3 juin

The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment

Étude géométrique montrant que l'accord inter-LLM sur les évaluations subjectives ne reflète pas l'alignement humain. Sur 41 juges LLM et 8 langues indiennes, les modèles utilisent 30-50% de la plage de scores humains, avec un axe d'évaluation quasi-orthogonal aux humains (87-89° vs 78-81°). L'accord LLM-LLM (r≈0.35) dépasse LLM-humain (r≈0.27-0.32). Seule la calibration post-hoc améliore tous les critères.

Évaluations Alignement Benchmarks

SIG

HYP

arXiv cs.AI·3 juin

DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration

DeskCraft est un benchmark pour agents desktop GUI évaluant des workflows professionnels longs (>50 étapes) en design, vidéo, audio et 3D avec collaboration humain-agent. 18 agents testés sur 538 tâches : GPT-5.4 atteint 31,6% en mode standard et 27,6% en mode interactif. Révèle des faiblesses en clarification proactive et exécution long horizon.

Agents IA Benchmarks Évaluations

SIG

HYP

Reddit r/LocalLLaMA·2 juin

Tiny LLM Benchmark: Jetson Orin Nano Super 8GB - Four Power Modes × Eight Models

Benchmark complet de 8 petits LLMs (135M–1B) sur Jetson Orin Nano Super 8GB avec llama.cpp CUDA, testés en 4 modes de puissance (7W–MAXN). Mode 25W optimal : SmolLM2-135M atteint 165 tok/s et 22.6 tok/J ; LFM2.5-1.2B meilleur en classe ~1B (54.1 tok/s). 384 cellules de benchmark, données brutes publiées.

Benchmarks Open source Infrastructure

SIG

HYP

arXiv cs.CL·2 juin

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Framework de red teaming multi-domaine évaluant 11 LLMs sur 690 scénarios cliniques. Résultats : variance substantielle (scores 0.791–0.984), défaillances critiques masquées par la précision moyenne, amplification d'erreur 10-20% sur tâches d'équité. Approche hybride (automatisée + validation humaine) nécessaire.

Sécurité IA Évaluations Benchmarks

SIG

HYP

arXiv cs.CL·2 juin

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

CSRP, un framework en trois étapes pour la correction d'erreurs grammaticales chinoises, combine pré-entraînement continu (5.9M échantillons), fine-tuning avec Chain-of-Thought, et optimisation de politique avec récompenses conscientes de l'efficacité. Atteint 50.99 F₀.₅ sur NACGEC et surpasse GPT-4 en correction orthographique (59.61 F1).

Reinforcement learning Raisonnement Fine-tuning

SIG

HYP

arXiv cs.AI·2 juin

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Méthode d'attribution retardée de récompenses par étape pour entraîner des agents LLM en interaction multi-agent stratégique. Un modèle open-source 8B entraîné avec cette approche a surpassé GPT-5 et remporté les deux catégories (Open et Efficient) du benchmark MindGames Arena à NeurIPS 2025.

Agents IA Multi-agents Reinforcement learning

SIG

HYP

arXiv cs.LG·2 juin

LithoGRPO: Fast Inverse Lithography via GRPO Reinforced Flow Matching

LithoGRPO combine le flow matching et l'apprentissage par renforcement (GRPO) pour optimiser les masques de lithographie en fabrication de semi-conducteurs. Le framework intègre une fonction de récompense physique explicite et propose un algorithme de comptage de tirs 130x plus rapide. Résultats SOTA sur les méthodes d'optimisation et d'apprentissage.

Reinforcement learning Papers Benchmarks

SIG

HYP

arXiv cs.LG·2 juin

BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization

BitsMoE propose une méthode de quantification pour modèles MoE basée sur l'allocation spectrale de bits. Via décomposition SVD, elle préserve la base partagée et quantifie finement les facteurs spécifiques aux experts. Sur Qwen3-30B à 2 bits, elle améliore la précision de 27,83 points et accélère le décodage de 1,76× vs GPTQ.

Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·1 juin

ICYM: llama.cpp b9455 --SM Tensor KV Cache Fix is MERGED

llama.cpp version b9455 fusionne un correctif majeur pour la quantification du KV cache en mode tensor sur multi-GPU. La solution étend le backend meta pour gérer correctement l'aplatissement des tenseurs sans perdre les informations de forme, évitant ainsi de modifier les graphes de calcul.

Llama Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·1 juin

mistral.rs v0.8.2: up to 2.8x faster CUDA inference than llama.cpp on GB10, B200, and H100

mistral.rs v0.8.2 atteint jusqu'à 2.8x plus rapide que llama.cpp en inférence CUDA sur Gemma 4 (dense et MoE) sur GB10, B200 et H100. Résultats reproductibles publiés avec support Q4K et eQ8_0, serveur OpenAI-compatible inclus.

Mistral Benchmarks Génération de code

SIG

HYP

arXiv cs.LG·1 juin

VeriGate: Verifier-Gated Step-Level Supervision for GRPO

VeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.

Raisonnement Reinforcement learning Papers

SIG

HYP

arXiv cs.CL·1 juin

Eywa: Provenance-Grounded Long-Term Memory for AI Agents

Eywa est une architecture mémoire pour agents IA persistants, fondée sur la provenance des preuves. Elle stocke les sources immuables avant d'extraire les faits, valide les mémoires contre des signaux typés, et récupère le contexte via un chemin de lecture déterministe sans appels LLM. Résultats : 90.19% sur LoCoMo C1-C4, 88.2% sur LongMemEval-S, 81.45% sur BEAM.

Agents IA Benchmarks Papers

SIG

HYP

arXiv cs.LG·1 juin

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Étude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.

Papers Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·1 juin

Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation

GLIDE est une bibliothèque Python open-source unifiant les méthodes de prediction-powered inference (PPI++, Stratified PPI, Predict-Then-Debias) pour évaluer les systèmes agentic. Elle combine annotations humaines et jugements LLM en estimations sans biais avec intervalles de confiance valides, réduisant les coûts d'annotation tout en maintenant la précision.

Agents IA Évaluations Open source

SIG

HYP

arXiv cs.CL·1 juin

Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

Des chercheurs démontrent que les watermarks statistiques dans les LLM sont vulnérables aux ensembles linéaires. En moyennant les distributions de probabilité de 3-5 modèles, les perturbations introduites par les watermarks s'annulent. La méthode WASH (Watermark Attenuation via Statistical Hybridisation) supprime la détection sur 6 schémas de watermarking testés, réduisant les z-scores de 5-300 à <2 (seuil: 4).

Sécurité IA Alignement Papers

SIG

HYP

arXiv cs.LG·1 juin

Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents

Un nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.

Benchmarks Évaluations Agents IA

SIG

HYP

arXiv cs.LG·1 juin

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

LongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.

Agents IA Benchmarks Évaluations

SIG

HYP

Reddit r/LocalLLaMA·31 mai

I ported NVIDIA Parakeet (speech-to-text) to ggml: same output as NeMo, faster, GGUF-quantized, no Python

Port de Parakeet (speech-to-text NVIDIA) en C++/ggml sans Python ni PyTorch. Sortie byte-for-byte identique à NeMo, 5x plus rapide sur GPU pour les gros modèles, 600x realtime sur clips audio. GGUF quantifiés (f16, q8_0, q6_k, q5_k, q4_k), API C plate, intégré dans LocalAI avec endpoint OpenAI-compatible.

Voix Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·31 mai

Flash Attention for llama.cpp on RDNA3: 47% less KV VRAM than Vulkan f16 K, KLD almost losselss on F16 K / q4_0 V. Part 1.

Optimisation Flash Attention pour llama.cpp sur GPU RDNA3 : réduction de 47% de la VRAM KV par rapport à Vulkan f16. Packing 8-bit des K-values dans instructions GPU natives sudot4, sans quantization lossy. À 128k contexte avec MTP draft : 21.76 GiB vs 23.18 GiB (gain 1.42 GiB). Qualité préservée : KLD moyen 0.00455 (q4_0 V), 97.06% top-token identiques.

Llama Génération de code Benchmarks

SIG

HYP

Reddit r/MachineLearning·29 mai

Building a monokernel for LLM inference on AMD MI300X - up to 3,300 output tokens/s per request [P]

Monokernel optimisé pour inférence LLM sur AMD MI300X : 3 300 tokens/s en sortie par requête (batch 1, sans décodage spéculatif). Architecture mappée à la topologie physique du GPU. Support initial d'un modèle 2B, MoE frontier prévu.

Infrastructure Génération de code Benchmarks

SIG

HYP

Reddit r/MachineLearning·29 mai

Making LLMs tell you how confident they really are through probe-targeted fine tuning.[R]

Recherche sur le fine-tuning ciblé par probe (LoRA) pour calibrer la confiance verbale des LLM. Les modèles détectent internement les réponses correctes (0.76–0.88 AUROC) mais affichent 99% de confiance en sortie. Fine-tuning sur 8 modèles (7B–70B) avec activation patching causal (ρ=0.976). Code et pré-enregistrement disponibles.

Fine-tuning Raisonnement Alignement

SIG

HYP

arXiv cs.AI·29 mai

BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents

BenchTrace est un benchmark pour évaluer la capacité d'auto-évolution des agents LLM. Basé sur 1,821 épisodes annotés couvrant six tâches, il mesure la qualité de la réflexion et teste si les agents évitent les erreurs passées. Expériences sur Qwen3-32B et GPT-4.1 : taux de réussite <30% en réflexion, oubli des leçons antérieures et généralisation faible.

Agents IA Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·29 mai

Sequential Physics-Constrained Neural Operator Forward Modeling for the $\textit{Norne}$ Reservoir System

Framework mathématique pour surrogate modeling de réservoirs pétroliers (Norne, 46×112×22 grille) via Fourier Neural Operators (FNO) et variante physics-informed (PINO). Validation empirique : R²>0.99 (pétrole), R²>0.90 (gaz), R²≈0.80 (pression) sur 3298 jours. Speedup 10⁴× vs simulateur OPM, ensemble 1000 membres en <1 min sur GPU B200.

Benchmarks Papers

SIG

HYP

arXiv cs.CL·29 mai

MechELK: A Mechanistic Interpretability Framework for Eliciting Latent Knowledge in Large Language Models

MechELK est un framework d'interprétabilité méchaniste pour extraire les connaissances latentes des LLM. En trois étapes (localisation via SAE, vérification par probing causal, élicitation par ingénierie de représentation), il atteint 84,7% de précision sur TruthfulQA, surpassant CCS de 6,2% et détecte 78,3% des connaissances cachées quand la sortie du modèle est incorrecte.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·29 mai

Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation

Évaluation de 14 modèles de sécurité open-source sur 79 331 échantillons couvrant 8 catégories de risque NIST. Qwen Guard (4B) atteint le meilleur recall (83,97%), surpassant Llama Guard (12B) et GPT-OSS Safeguard (20B). La taille du modèle ne corrèle pas avec la performance de détection.

Benchmarks Sécurité IA Open source

SIG

HYP

arXiv cs.LG·28 mai

Learn from your own latents and not from tokens: A sample-complexity theory

Article théorique sur l'efficacité échantillonnale des modèles prédisant leurs propres représentations latentes (data2vec, JEPA). Preuve que la prédiction latente réduit la complexité d'échantillon de exponentielle en L (profondeur) à constante, vs. prédiction de tokens. Validation sur grammaires probabilistes et réseaux de neurones.

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·28 mai

Laguna M.1/XS.2 Technical Report

Laguna M.1 (225.8B paramètres, 23.4B activés) et Laguna XS.2 (33.4B total, 3B activés) sont deux modèles MoE entraînés end-to-end pour le coding agentic. Compétitifs sur SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro et Terminal-Bench 2.0. XS.2 disponible sous Apache 2.0.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.LG·28 mai

Hurwitz Quaternion Multiplicative Quantization for KV Cache Compression

HQMQ, méthode sans calibration pour compresser le cache KV des LLM, quantifie chaque chunk de 4 éléments comme quaternion Hurwitz. Testé sur Mistral-7B, Llama-3-8B, Qwen2.5/3-8B et gpt-oss-20b : atteint qualité fp16 à ~5 bits, compression jusqu'à 5.05× (Llama-3-70B : 43 GB → 8.5 GB), surpasse int4 naïf de 3–1900×.

Benchmarks Infrastructure Papers

SIG

HYP

arXiv cs.LG·28 mai

A Simple State Space Model Excels at Multivariate Time Series Classification

Étude systématique comparant les modèles d'espace d'état (SSM) pour la classification de séries temporelles. S4D surpasse les variantes Mamba en précision et efficacité. Les auteurs proposent MS4 et MS4N, versions légères de S4D avec projection linéaire et mélange de canaux. Évaluation sur 59 datasets (MONSTER, UEA) : MS4N égale des modèles 10× plus grands en paramètres.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·27 mai

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

EnterpriseMem-Bench, un benchmark multi-tour Text-to-SQL de 1 400 tours sur 300 sessions, évalue GPT-5 mini, GPT-5.2, Claude Sonnet 4.5/4.6 et Opus 4.6. Résultats clés : sans mémoire, la précision s'effondre dès le tour 3 ; la mémoire de travail domine les architectures complexes ; Sonnet 4.6 régresse de 17-33pp sur SEC EDGAR vs Sonnet 4.5.

Benchmarks Génération de code GPT

SIG

HYP

arXiv cs.CL·27 mai

SPEAR: Code-Augmented Agentic Prompt Optimization

SPEAR est un optimiseur de prompts agentic qui intègre un sandbox Python pour analyser les erreurs structurelles (matrices de confusion, clustering). Évalué sur 13 tâches industrielles LLM-as-judge et BBH-7, il surpasse GEPA et TextGrad (κ 0.857 vs 0.359 sur sélection d'outils; F1-macro 0.815 vs 0.763). L'outil Python contribue +0.79κ sur les tâches complexes.

Prompt engineering Agents IA Génération de code

SIG

HYP

arXiv cs.CL·27 mai

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Qwen3 améliore ses capacités de raisonnement via Self-Verified Distillation, un algorithme post-training sans données externes. Le modèle génère des solutions, les filtre par auto-vérification (cycle-consistency, factualité, correction), puis s'entraîne sur les données auto-curées. Gains : +16.7 points en math (AIME26/HMMT), +11.1 en science (GPQA), +8.3 en coding pour Qwen3-4B.

Qwen Fine-tuning Raisonnement

SIG

HYP

arXiv cs.AI·27 mai

ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

ScientistOne, un système autonome de recherche, introduit Chain-of-Evidence (CoE) pour tracer chaque affirmation à sa source. Évaluation sur 75 articles : les systèmes de base montrent 21% de références halluccinées, 42% de vérification de scores réussie. ScientistOne atteint 0 hallucination, vérification parfaite, et surpasse les experts humains sur 5 tâches.

Agents IA Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·27 mai

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

AgingBench, un benchmark de fiabilité longitudinale, évalue comment les agents IA déployés se dégradent au fil du temps. Étude sur 14 modèles et ~400 exécutions montrant que la fiabilité dépend de quatre mécanismes : compression, interférence, révision et maintenance. Les agents perdent précision factuelle même quand les tests comportementaux restent corrects.

Agents IA Évaluations Benchmarks

SIG

HYP