Page 14 sur 192

ToutHaut signalRécent

7679 articles

Assessing the Carbon Emissions and Energy Consumption of U.S. Hyperscale Data Centers

Étude de 403 data centers hyperscale US (mai 2024-avril 2025) : consommation estimée 68-99 TWh, émissions 37-54 Mt CO2. Représentent 1,8% de la consommation électrique US. Intensité carbone 545 gCO2/kWh, 48% au-dessus de la moyenne nationale (370 gCO2/kWh). 54% de l'électricité provient de sources fossiles.

Infrastructure Régulation Sécurité IA

SIG

HYP

arXiv cs.AI·6 juin

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Les juges LLM utilisés pour évaluer les modèles IA sont instables sous interaction post-décision. Sur MT-Bench et AlpacaEval, les chercheurs montrent que des jugements initiaux peuvent être renversés par des défis ciblés, dégradant l'accord avec les préférences humaines et modifiant les classements. Ils introduisent l'Evaluation Robustness Score (ERS) pour mesurer cette fragilité.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.AI·6 juin

What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

PACT est un protocole de communication inter-agents qui compresse les messages entre agents LLM en enregistrements action-état compacts. Testé sur deux topologies MAS, il réduit l'usage de tokens de 10-50% tout en maintenant ou améliorant les performances sur OpenHands et SWE-agent.

Multi-agents Agents IA Génération de code

SIG

HYP

arXiv cs.AI·6 juin

Evaluation of LLMs for Mathematical Formalization in Lean

Comparaison de LLMs pour la génération de preuves formelles en Lean 4. Gemini 3.1 Pro et Claude Opus 4.7 obtiennent les meilleures performances (92% et 86% de succès respectivement via refine@32). NVIDIA Nemotron 3 Super et GPT-OSS 120B offrent le meilleur rapport coût-efficacité (<0,01$ par preuve correcte).

Benchmarks Claude Gemini

SIG

HYP

arXiv cs.AI·6 juin

Multilingual Fine-Tuning via Localized Gradient Conflict Resolution

Nouvelle méthode de fine-tuning multilingue via optimisation multi-objectifs (MOO) appliquée localement sur des buckets de paramètres. Résout les conflits de gradients entre langues sans surcharge de communication. Démontre amélioration de performance sur langues vues et non-vues sur 4 LLMs de base.

Fine-tuning Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·6 juin

Mutation Without Variation: Convergence Dynamics in LLM-Driven Program Evolution

Étude arXiv sur la mutation de programmes par LLM : les chaînes de mutation convergent rapidement vers des régions restreintes de l'espace des programmes. 87% des chaînes revisitent 93% de formes structurelles précédentes. Le phénomène est robuste entre modèles et prompts, révélant un biais systématique vers l'homogénéité structurelle incompatible avec l'exploration ouverte.

Papers Génération de code Reinforcement learning

SIG

HYP

arXiv cs.AI·6 juin

Answer Presence Drives RAG Rewriting Gains

Une étude contrôlée montre que les gains de F1 des pipelines RAG avec réécriture LLM proviennent principalement de la présence de la réponse correcte dans le contexte réécrit, pas de la curation. Tests sur Qwen2.5/3.5, GLM-4 et HotpotQA/2WikiMultihopQA : retirer la réponse réduit F1 de 28-64 points, l'injecter l'augmente de 0.7-9.7 points.

RAG Évaluations Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·5 juin

dots.tts 2B🎙️ SOTA TTS from RedNote

RedNote (Xiaohongshu) publie dots.tts, un modèle TTS open-source de 2B paramètres en Apache 2.0. Architecture entièrement continue sans tokens codec, synthèse 48 kHz, clonage vocal zero-shot, pipeline texte→parole direct.

Voix Open source Outils

SIG

HYP

Reddit r/MachineLearning·5 juin

Benchmark: ONNX Runtime vs HF Transformers vs GGUF for Parakeet TDT 0.6B on CPU-only hardware [D]

Benchmark CPU d'inférence pour Parakeet TDT 0.6B sur 2 vCPU x86-64 (7.7GB RAM). ONNX Runtime FP32 atteint RTF 0.328 (37% plus rapide que HF Transformers bfloat16 à 0.519), mais consomme 2.7GB pic mémoire. GGUF Q6_K réduit à 928MB mais double le RTF à 0.708. Analyse méthodologique : espeak-ng fausse WER à 20.9% vs gTTS 4.65%.

Benchmarks Génération de code Voix

SIG

HYP

arXiv cs.CL·5 juin

AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints

AdaPlanBench est un benchmark interactif évaluant la capacité des agents LLM à planifier et replanifier face à des contraintes monde et utilisateur révélées progressivement. Construit sur 307 tâches ménagères, il teste 10 modèles leaders : le meilleur atteint 67,75% de précision. Les performances se dégradent avec l'accumulation de contraintes, notamment les contraintes utilisateur.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·5 juin

Predictable Scaling Laws of Optimal Hyperparameters for LLM Continued Pre-training

Étude arXiv montrant que les hyperparamètres optimaux du continued pre-training suivent des lois d'échelle prévisibles. Framework en deux étapes : découverte empirique via modèles proxy, puis prédiction state-aware basée sur la perte de validation. Réduit la recherche d'hyperparamètres de 90% tout en maintenant les performances.

Benchmarks Fine-tuning Papers

SIG

HYP

arXiv cs.LG·5 juin

What Objects Enable, Not What They Are: Functional Latent Spaces for Affordance Reasoning

A4D propose un espace latent fonctionnel organisé autour des affordances (capacités) plutôt que l'apparence des objets, pour améliorer la généralisation de la planification robotique. Le système atteint 94% de précision sur les affordances existantes (+15 points vs SOTA) et 90% sur les nouvelles affordances avec 10% des données d'entraînement originales, avec inférence 100x plus rapide.

Robotique Raisonnement Vision

SIG

HYP

arXiv cs.CL·5 juin

Localizing Prompt Ambiguity in Large Language Models with Probe-Targeted Attribution

PRIG, une méthode d'attribution par gradient, localise l'ambiguïté dans les prompts LLM en entraînant une sonde linéaire à distinguer les prompts clairs des ambigus, puis attribue le score de la sonde aux représentations de tokens. Évalué sur des datasets synthétiques (codage, math, écriture) et un benchmark humain, PRIG atteint 0.840 AUROC sur le benchmark synthétique combiné et 0.891 AUROC sur l'ensemble gold.

Prompt engineering Évaluations Papers

SIG

HYP

arXiv cs.LG·5 juin

LEVANTE-bench: Multi-Scale Comparison of VLMs to Children Using Cognitive Tasks (or, "Is Your VLM Smarter Than a 5th Grader?")

LEVANTE-bench compare 6 modèles de vision-langage (VLMs) à des enfants de 5-12 ans (N=1547) sur des tâches cognitives standardisées dans 3 pays. Les modèles plus grands s'alignent mieux globalement, mais les petits modèles reproduisent mieux les erreurs des jeunes enfants. Les VLMs échouent sur le raisonnement matriciel et la rotation mentale.

Vision Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·5 juin

SHALA-LLM: Smartly Handling Ambiguous Labels in Aligning LLMs

SHALA-LLM est un framework d'apprentissage par renforcement qui traite l'ambiguïté des labels comme une information utile plutôt que du bruit. Sur NLI et reconnaissance d'émotions, il réduit la distance Jensen-Shannon de 62,1% sur ChaosNLI et améliore le F1 de 16,7% en apprenant directement des distributions d'annotateurs.

Reinforcement learning Alignement Évaluations

SIG

HYP

arXiv cs.LG·5 juin

Agentic Monte Carlo: Simulating Reinforcement Learning for Black-Box Agents

Agentic Monte Carlo (AMC) optimise les agents LLM black-box sans accès aux paramètres. La méthode utilise Sequential Monte Carlo pour échantillonner depuis la politique optimale en apprenant une fonction de valeur, sans modifier le modèle sous-jacent. Validée sur AgentGym, AMC surpasse les baselines de prompting et GRPO.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·5 juin

Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics

Étude épidémiologique de l'effondrement de modèles causé par l'entraînement sur données synthétiques. Framework SIR/SIRS bipartite modélisant la contamination croisée entre corpus de données et modèles IA. Expériences GPT-2 sur WikiText et Shakespeare (192 runs) confirment dégradation dose-réponse; R₀ > 1 indique dynamiques supercritiques. Détection synthétique et filtrage identifiés comme leviers principaux.

Papers Sécurité IA Benchmarks

SIG

HYP

arXiv cs.CL·5 juin

TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework

TensorBench est un benchmark de 199 tâches de codage (ajouts de fonctionnalités et refactorisation) sur un framework tensor open-source basé compilateur étendant PyTorch. Évaluation de 7 agents de codage : taux de réussite de 64,8% (meilleur) à 22,1% (plus faible), avec faible accord inter-agents (κ=0,05 pour les deux meilleurs).

Benchmarks Génération de code Agents IA

SIG

HYP

arXiv cs.CL·5 juin

ArcANE: Do Role-Playing Language Agents Stay in Character at the Right Time?

ArcANE est un benchmark automatisé évaluant si les agents de rôle-playing maintiennent la cohérence psychologique des personnages au fil de l'histoire. Construit sur 17 romans et 80 personnages, il teste les réponses à travers différentes phases narratives et scénarios inédits. Conditionner sur l'arc de caractère surpasse toutes les autres stratégies contextuelles sur 6 modèles.

Benchmarks Agents IA Évaluations

SIG

HYP

arXiv cs.CL·5 juin

Self-supervised User Profile Generation for Personalization

BUMP est un framework auto-supervisé pour générer des profils utilisateur textuels personnalisant les LLM. Entraîné via GRPO sur un objectif de ranking bidirectionnel (profil vs interactions, interactions vs profils), il ne nécessite aucune annotation. Évalué sur LaMP, BUMP égale ou surpasse les APIs fermées sans labels supervisés.

Reinforcement learning RAG

SIG

HYP

arXiv cs.LG·5 juin

Less is MoE: Trimming Experts in Domain-Specialist Language Models

Fisher-MoE propose une compression des modèles Mixture-of-Experts en ciblant les dimensions intermédiaires des FFN plutôt que les experts entiers. Sur Qwen1.5-MoE, supprimer 12 des 1.35M dimensions critiques (identifiées par importance Fisher) préserve les performances tout en réduisant la mémoire de 45% et augmentant le débit d'inférence de 21%.

Qwen Benchmarks Fine-tuning

SIG

HYP

arXiv cs.LG·5 juin

The Evaluation Blind Spot: A Stereological Theory of Benchmark Coverage for Large Language Models

Théorie stéréologique de la couverture des benchmarks LLM. Pour d_eff ∈ [2.86, 4.80], le blind spot structural dépasse l'écart entre modèles de deux ordres de magnitude. Un algorithme glouton submodulaire identifie 4 benchmarks stables ; 7 sur 12 suffisent pour 90% de couverture. Validation sur 12 benchmarks internes et 27 catégories Chatbot Arena.

Benchmarks Évaluations

SIG

HYP

arXiv cs.LG·5 juin

Pattern Selectivity is Not Task-Causal Structure: A Cross-Architecture Mechanistic Study of Composed-Task Circuits in 1B-Class Language Models

Étude mécanistique cross-architecture sur 3 modèles 1B (Pythia, OLMo, OLMoE) testant si l'identification de circuits par sélectivité de patterns + ablation causale produit des résultats reproductibles. Résultat : même tâche, même capacité comportementale, implémentations différentes selon le modèle. Taxonomie à 5 catégories (cause primaire, secondaire, corrélat, interférent, null) avec seuils quantitatifs.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·5 juin

Multimarginal flow matching with optimal transport potentials

Flow matching multimarginal avec potentiels de transport optimal. Nouvelle approche combinant flow matching et transport optimal dynamique pour modéliser l'évolution temporelle avec marginals intermédiaires observées. Algorithme sans simulation (OTP-FM) validé sur données RNA-seq, océanographiques et météorologiques.

Raisonnement Papers

SIG

HYP

arXiv cs.LG·5 juin

Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

PRECISE étend Prediction-Powered Inference pour évaluer les classements en combinant annotations humaines (30) et jugements LLM (Claude 3 Sonnet). Réduit l'erreur standard de Precision@4 de 4.45 à 3.50 (−21%). En production, identifie correctement le meilleur variant avec 100 labels humains; A/B test confirme +407 bps de ventes.

Évaluations Claude Benchmarks

SIG

HYP

arXiv cs.LG·5 juin

State commitment learning: training language models to distinguish computation from memory

Nouvelle méthode d'entraînement pour distinguer le calcul temporaire de l'état persistant dans les modèles de langage. Counterfactual Erasure RL (CERL) récompense les modèles quand la réponse reste correcte après suppression des pensées intermédiaires. Évaluation sur mathématiques, logique et QA scientifique montre réduction de la dépendance aux calculs cachés sans perte de précision.

Raisonnement Reinforcement learning Papers

SIG

HYP

Reddit r/LocalLLaMA·5 juin

proveKV – Honest 36× lossless (vs f32, 18x vs fp16) KV‑cache compression for LLMs (zero PPL regression)

proveKV : technique open-source de compression KV-cache pour LLMs. Résultats : 36× réduction mémoire sans perte vs f32, 18× vs fp16 sur SmolLM2-1.7B + WikiText-2 (0% régression PPL). Pipeline d'audit automatisé avec validation reproductible.

Open source Infrastructure Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·4 juin

cyankiwi AWQ 4-bit — 26.05 update, NVFP4 + FP8 Dynamic quantization and benchmarks across Qwen3.6 4-bit quants

cyankiwi publie une mise à jour AWQ 4-bit avec support NVFP4 et FP8 Dynamic quantization. Benchmarks KL divergence sur Qwen3.6 27B et 35B-A3B : cyankiwi/Qwen3.6-27B-AWQ-INT4 atteint 0.020443 KLD (meilleur dense), cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit atteint 0.017126 KLD (meilleur MoE).

Qwen Benchmarks Open source

SIG

HYP

Reddit r/MachineLearning·4 juin

We built a source-available LLM reliability library (free for research / personal / internal eval) that can cut inference cost by half at matched quality, and you adopt it by changing one import [P] [R]

Agentcodec unifie 28 techniques de fiabilité LLM (retry, ensemble, vérification, routing adaptatif) sous une API unique. Adoption par changement d'import. Sur Nemotron + Devstral + GLM-5.1, le routeur adaptatif réduit les coûts de 56% à qualité égale, ou gagne 7% de qualité à coût égal. Paramètre λ contrôle le trade-off.

Raisonnement Évaluations Open source

SIG

HYP

Reddit r/LocalLLaMA·4 juin

Qwen3.6-27B on 2x3090s: llama.cpp vs vLLM, all the flags, and the MTP acceptance/inference speed/context

Benchmark détaillé de Qwen3.6-27B sur 2x RTX 3090 comparant llama.cpp (Q6_K/Q8_0) et vLLM (INT4/INT8). Mesures réelles : débit 43-54 tok/s, taux d'acceptation MTP 27-77% selon backend. Setup avec proxy OpenAI-compatible hot-swappant 4 configurations, sans P2P PCIe (Threadripper 1950X).

Qwen Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·4 juin

KVarN: new KV-cache quant from Huawei. 3–5× KV cache compression with actual speed-up instead of slow-down, and unlike TurboQuant it holds up on reasoning (Apache 2.0, vLLM single flag)

Huawei open-source KVarN, méthode de quantization KV-cache (Apache 2.0, intégration vLLM single flag). Compression 3–5× vs FP16, débit jusqu'à 1.4× FP16, préserve qualité reasoning contrairement à TurboQuant (Google). Pas de retraining, pas de calibration.

Open source Infrastructure Benchmarks

SIG

HYP

arXiv cs.LG·4 juin

Spectral Scaling Laws of Muon

Étude systématique du comportement spectral de Muon, optimiseur basé sur l'orthonormalisation par itération Newton-Schulz. Sur modèles 77M-2.8B paramètres, les valeurs singulières du buffer momentum se stabilisent selon des lois de puissance dépendant de la profondeur (exposants M^-0.25 à M^-0.96). Implications pour la configuration NS à l'échelle frontier.

Benchmarks Papers Infrastructure

SIG

HYP

arXiv cs.LG·4 juin

Training-Free Lexical-Dense Fusion for Conversational-Memory Retrieval

Étude de fusion lexicale-dense sans entraînement pour la récupération en mémoire conversationnelle longue. Fusion score-level de late-interaction dense + BM25 améliore Hit@1 de +8.8 à +17.2 points sur six encodeurs (Hit@1 0.752 avec e5-large-v2). Reranker cross-encoder web dégrade les résultats (-6.9 pp). Analyse montre division du travail : dense excelle sur questions multi-hop/temporelles, BM25 sur adversariales.

RAG Embeddings Benchmarks

SIG

HYP

arXiv cs.AI·4 juin

Learning Admissible Heuristics via Cost Partitioning

Nouvelle approche pour apprendre des heuristiques admissibles en planification optimale via partitionnement de coûts. Un réseau de neurones avec attention axiale prédit des poids de coûts garantissant l'admissibilité par construction, utilisant l'équivalence duale lagrangienne. Premiers résultats : réduction des expansions de nœuds tout en préservant l'optimalité.

Raisonnement Papers

SIG

HYP

arXiv cs.AI·4 juin

Scaling Self-Evolving Agents via Parametric Memory

TMEM introduit un cadre de mémoire paramétrique auto-évolutive pour agents LLM. Au lieu de stocker l'expérience uniquement en contexte textuel, l'agent absorbe la supervision dans des poids LoRA légers (Δ_t) via des mises à jour en ligne, modifiant son comportement au sein d'un même épisode. Évalué sur LoCoMo, LongMemEval-S et CL-Bench, TMEM surpasse les baselines basées sur résumés et récupération.

Agents IA Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.AI·4 juin

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL combine modélisation de trajectoires pas-à-pas, Process Reward Models et fine-tuning augmenté pour améliorer la génération de code RTL par LLM. Le framework utilise MCTS pour explorer des chemins de raisonnement alternatifs et atteint +10% de correctness fonctionnelle sur benchmarks Verilog/VHDL.

Reinforcement learning Génération de code Raisonnement

SIG

HYP

arXiv cs.LG·4 juin

RUBAS: Rubric-Based Reinforcement Learning for Agent Safety

RUBAS est un framework de reinforcement learning basé sur des rubriques pour l'alignement des agents LLM. Il décompose le comportement en quatre dimensions (tool-use safety, argument safety, response safety, helpfulness) et génère des récompenses structurées sur les trajectoires complètes. Expériences montrent amélioration de la sécurité et réduction des hallucinations sans perte d'utilité.

Agents IA Reinforcement learning Sécurité IA

SIG

HYP

arXiv cs.LG·4 juin

EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms

EvalStop détecte et arrête les jobs RLHF qui suroptimisent la reward model au détriment des métriques réelles. Sur des charges 80% RLHF (64 GPUs), le système atteint 98% de précision et réduit le calcul gaspillé de 22% tout en améliorant le JCT de 9% par rapport à SRTF-Est.

Reinforcement learning Évaluations Alignement

SIG

HYP

arXiv cs.LG·4 juin

dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats

dMX est un framework de quantification mixte-précision différentiable pour assigner des largeurs de bits flottants apprenables aux couches de LLMs. Testé sur Llama, Qwen3 et SmolLM2 avec le standard MXFP (Open Compute Project), il optimise continu les formats par couche puis les discrétise via annealing, surpassant les heuristiques KL-divergence sur WikiText-2 et benchmarks zero-shot.

Llama Qwen Benchmarks

SIG

HYP

arXiv cs.CL·4 juin

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

Étude systématique du biais positionnel dans la résumé multi-vidéo avec MLLMs. Benchmark sur ActivityNet et News videos (2-4 vidéos). Évaluation de 9 modèles (open-source et propriétaires) avec 3 métriques : Coverage, Directional Positional Bias, Middle-Edge Gap. Résultat : effets positionnels dépendent du domaine et du modèle ; augmenter le budget visuel ne supprime pas l'imbalance.

Vision Benchmarks Évaluations

SIG

HYP