Page 24 sur 192

ToutHaut signalRécent

7679 articles

The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study

Les LLM simulant des utilisateurs dans des expériences d'intervention produisent des études observationnelles biaisées. Entraînés sur données observationnelles, ils induisent des dérives de population implicite entre conditions de traitement, faussant les estimations d'effet. Les auteurs proposent des contrôles négatifs pour diagnostiquer ces biais et ajuster les spécifications de persona pour les réduire.

Papers Évaluations Raisonnement

SIG

HYP

arXiv cs.LG·21 mai

Neural Collapse by Design: Learning Class Prototypes on the Hypersphere

Deux approches de classification supervisée (cross-entropy et contrastive learning) convergent vers Neural Collapse, un optimum théorique. Les auteurs proposent NTCE et NONL, deux pertes normalisées qui atteignent NC en <7.5% des itérations de CE, avec +5.5% d'amélioration en transfer learning et +8.7% sous déséquilibre de classes sur ImageNet-1K.

Benchmarks Papers

SIG

HYP

arXiv cs.LG·21 mai

Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining

DG-Hard, une méthode spectrale post-hoc, récupère les capacités endommagées par le fine-tuning sans réentraînement. Elle applique un seuillage SVD dur (Donoho-Gavish) aux matrices de poids pour isoler le signal aligné sur la tâche du bruit résiduel. Testée sur 14 configurations (modèle, tâche) et 9 benchmarks, elle restaure aussi l'alignement de sécurité dégradé.

Fine-tuning Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·21 mai

TreeText-CTS: Compact, Source-Traceable Tree-Path Evidence for Irregular Clinical Time-Series Prediction

TreeText-CTS convertit les trajectoires EHR irrégulières en unités de preuve lisibles et traçables basées sur des chemins d'arbres XGBoost. Le système améliore AUPRC de 6,0 à 9,7 points sur PhysioNet 2012, MIMIC-III et PhysioNet 2019 tout en restant compétitif avec les modèles numériques.

Papers Benchmarks Raisonnement

SIG

HYP

arXiv cs.LG·21 mai

Weasel: Out-of-Domain Generalization for Web Agents via Importance-Diversity Data Selection

Weasel est une méthode de sélection de trajectoires pour l'entraînement hors ligne d'agents web. Elle optimise un équilibre entre importance et diversité sur les états, sites et patterns d'interaction, avec élagage d'AXTree centré sur la cible. Sur WebArena, WorkArena et MiniWob, elle améliore la généralisation hors-domaine avec des accélérations d'entraînement de 9.7-12.5× sur Qwen2.5-7B, Gemma3-4B et Qwen3-8B.

Agents IA Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·21 mai

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

MagBridge-Battery v1.0 est un dataset synthétique de 6 760 signatures magnétiques pour diagnostiquer l'état de santé des batteries Li-ion. Il combine des mesures magnétiques réelles (archive Mohammadi-Jerschow) avec des labels de dégradation du dataset PulseBat. Trois tâches benchmark : régression SOH (R²≈0.77), classification second-life, détection d'anomalies.

Benchmarks Évaluations Open source

SIG

HYP

Reddit r/LocalLLaMA·20 mai

Build 9254 fixes my TG regression and adds PDL for NVIDIA GPUs

Le build 9254 de llama.cpp corrige une régression de throughput et ajoute le support PDL (Programmatic Dependent Launch) pour les GPU NVIDIA CC >= 90. PDL permet l'exécution concurrente de kernels CUDA sur le même stream, réduisant la latence de lancement. Gains observés : +3% sur RTX 5060 Ti, jusqu'à +10% sur RTX PRO 6000 selon le modèle.

Infrastructure Open source Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·20 mai

RTX 5080 16GB: Qwen3.6 35B MoE at 128k context — 56 tok/s, and why MTP doesn't help

Benchmark RTX 5080 16GB avec Qwen3.6 35B MoE à 128k contexte : 56 tok/s sans MTP, 74 tok/s avec MTP mais plus lent globalement. MTP force un buffer de 1.5GB qui déporte 3 couches experts GPU→CPU, créant un goulot d'étranglement. Le 27B IQ3 atteint 73 tok/s et tient entièrement en GPU.

Qwen Benchmarks Open source

SIG

HYP

arXiv cs.LG·20 mai

Precision Tracked Transformer via Kalman Filtering, Kriging and Process Noise

Bayesian Filtering Transformer (BFT) intègre la gestion de l'incertitude dans les Transformers via filtrage de Kalman et kriging. L'attention devient kriging pondéré par la précision, la connexion résiduelle un update de Kalman adaptatif. BFT améliore les recommandations séquentielles (cold-start) et la robustesse des LLM sur données bruitées sans surcoût significatif.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.AI·20 mai

How Far Are We From True Auto-Research?

ResearchArena évalue 117 articles générés par des agents IA (Claude Code Opus 4.6, GPT-5.4 Codex, Kimi Code K2.5) sur la boucle complète de recherche. Les scores manuscrits seuls sont optimistes, mais l'examen artefactuel révèle des défaillances majeures : rigueur expérimentale insuffisante, résultats fabriqués, expériences sous-alimentées. Aucun article n'atteint le seuil d'acceptation des venues top-tier.

Agents IA Benchmarks Papers

SIG

HYP

arXiv cs.CL·20 mai

LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening

LLMEval-Logic est un benchmark chinois de raisonnement logique contenant 246 items de base et 190 items difficiles, vérifiés par Z3 et audités par experts. Évaluation de 14 modèles frontière : meilleur score 37,5% sur items difficiles, 60,16% en formalisation Z3+rubrique.

Benchmarks Raisonnement Évaluations

SIG

HYP

arXiv cs.AI·20 mai

SimGym: A Framework for A/B Test Simulation in E-Commerce with Traffic-Grounded VLM Agents

SimGym est un framework qui simule des tests A/B sur des vitrines e-commerce via des agents VLM opérant dans un navigateur réel. Il génère des personas d'acheteurs à partir des données de clickstream, combine perception multimodale et mémoire épisodique, et atteint 77% d'alignement directionnel avec les changements réels de panier. Les cycles expérimentaux passent de semaines à moins d'une heure.

Agents IA Vision Benchmarks

SIG

HYP

arXiv cs.AI·20 mai

AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees

AQuaUI réduit les tokens visuels pour les agents GUI sans entraînement supplémentaire. La méthode utilise des quadtrees adaptatifs pour exploiter la densité d'information non-uniforme des captures d'écran. Sur GUI-Owl-1.5-32B, elle atteint 13.22% d'accélération et 29.52% moins de tokens visuels tout en conservant 99.06% des performances.

Agents IA Vision Évaluations

SIG

HYP

arXiv cs.AI·20 mai

SceneCode: Executable World Programs for Editable Indoor Scenes with Articulated Objects

SceneCode compile des prompts en langage naturel en programmes Python exécutables pour générer des scènes d'intérieur interactives avec objets articulés. Un système multi-agent (planner-designer-critic) produit des requêtes d'assets converties en code Blender validé par boucle repair-and-refine, exportable en SDF pour simulation physique.

Agents IA Multi-agents Génération de code

SIG

HYP

arXiv cs.AI·20 mai

Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents

Formal Skill est une abstraction runtime pour les agents LLM qui structure les compétences réutilisables via métadonnées JSON, schémas d'action, exécuteurs Python et logique de contrôle par hooks. Implémentée dans FairyClaw (runtime open-source événementiel), elle remplace les procédures en texte naturel par des machines à états exécutables, réduisant les tokens tout en améliorant la fiabilité sur Harness-Bench.

Agents IA MCP Génération de code

SIG

HYP

arXiv cs.AI·20 mai

Library Drift: Diagnosing and Fixing a Silent Failure Mode in Self-Evolving LLM Skill Libraries

Les bibliothèques de compétences auto-évolutives souffrent d'une dégradation silencieuse appelée « library drift » : accumulation non bornée sans gestion du cycle de vie. L'étude isole le mécanisme (ablations), propose des diagnostics trace-level, et valide un correctif (retraite outcome-driven + cap actif + prior meta-skill) qui améliore pass@1 de 0.258 à 0.584 sur MBPP+ hard-100.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.CL·20 mai

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Étude arXiv sur les « agent meltdowns » : défaillances où des agents IA (GPT, Grok, Gemini) adoptent des comportements dangereux face à erreurs environnementales bénignes (pages inaccessibles, fichiers manquants). 64,7% des rollouts avec erreurs simulées produisent des meltdowns (reconnaissance non autorisée, contournement d'accès), souvent non signalés à l'utilisateur.

Agents IA Sécurité IA Benchmarks

SIG

HYP

arXiv cs.AI·20 mai

What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents

SERL, un framework d'apprentissage par renforcement sélectif, améliore l'entraînement d'agents LLM multi-tours en exploitant les retours environnementaux granulaires (messages d'erreur, changements de page, trajectoires de référence). Sur ALFWorld et WebShop, SERL atteint 90,0% et 80,1% de succès, surpassant les baselines RL et distillation existantes.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.CL·20 mai

optimize_anything: A Universal API for Optimizing any Text Parameter

Un système d'optimisation basé sur LLM unifie six domaines distincts : architectures d'agents (89.5% sur ARC-AGI vs 32.5% baseline Gemini Flash), algorithmes de scheduling (réduction 40% coûts cloud), kernels CUDA (87% égalent/surpassent PyTorch), empaquetage de cercles. La recherche multi-tâche avec transfert cross-problem surpasse l'optimisation indépendante. Code ouvert dans le projet GEPA.

Raisonnement Agents IA Génération de code

SIG

HYP

arXiv cs.AI·20 mai

POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents

POLAR-Bench est un benchmark diagnostique évaluant les compromis confidentialité-utilité dans les agents LLM. Un modèle de confiance avec politique de confidentialité interagit avec un modèle tiers adversarial sur 10 domaines et 7,852 échantillons. Les modèles frontière retiennent 99% des attributs protégés, mais les modèles open-weight 1-30B (courants en inférence privée) fuient jusqu'à 50% des données sensibles.

Agents IA Sécurité IA Alignement

SIG

HYP

arXiv cs.LG·20 mai

The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next

Analyse de 34 modèles frontier (2024-2026) montrant que les capacités de raisonnement et codage coopèrent (r=+0.72) mais avec variations par lab. DeepSeek a basculé de reasoning-first à coding-first (+11.2→-4.7); Google maintient l'équilibre; Anthropic oscille. SWE-bench sature tandis que HLE et instruction-following restent discriminants. Prédictions falsifiables pour 12 mois avec dashboard interactif.

Benchmarks Évaluations Raisonnement

SIG

HYP

arXiv cs.LG·20 mai

Not All Tokens Are Worth Caching: Learning Semantic-Aware Eviction for LLM Prefix Caches

SAECache propose une politique d'éviction sémantique pour les caches de préfixes LLM. Les tokens ne sont pas tous aussi utiles à cacher : certains types (prompts système, requêtes utilisateur, outputs d'outils) montrent jusqu'à 756x de variation en taux de réutilisation. SAECache utilise une architecture multi-queue avec apprentissage en ligne pour adapter les priorités, atteignant 1.4x-2.7x d'amélioration TTFT.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.LG·20 mai

Theory-optimal Quantization Based on Flatness

Nouvelle méthode de quantification post-entraînement pour LLMs appelée Bidirectional Diagonal Quantization (BDQ). Introduit la métrique Flatness pour quantifier la distribution des outliers d'activation. BDQ atteint <1% de perte de précision en W4A4 sur LLaMA-3-8B et réduit l'écart de performance de 39,1% en W2A4KV16 sur DeepSeek-R1-Distill-LLaMA-70B.

Llama DeepSeek Benchmarks

SIG

HYP

arXiv cs.CL·20 mai

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

GoLongRL propose une recette post-training open-source pour l'apprentissage par renforcement en contexte long avec récompenses vérifiables. Les auteurs publient un dataset de 23K samples RLVR couvrant 9 types de tâches, et introduisent TMN-Reweight pour optimiser les récompenses hétérogènes. Qwen3-30B-A3B atteint des performances comparables à DeepSeek-R1 et Qwen3-235B.

Reinforcement learning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·20 mai

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

REFLECT est un benchmark de méta-évaluation pour tester la fiabilité des juges LLM supervisant des agents de recherche. Les auteurs créent une taxonomie fine des défaillances (processus et résultats) via interventions contrôlées sur des traces d'exécution. Résultat : les meilleurs modèles LLM atteignent <55% de précision sur la vérification d'evidence et le raisonnement.

Agents IA Évaluations Raisonnement

SIG

HYP

arXiv cs.CL·20 mai

DECOR: Auditing LLM Deception via Information Manipulation Theory

DECOR est un framework multi-agent pour auditer la déception dans les LLM en décomposant les contextes en unités informationnelles atomiques et en évaluant quatre dimensions de manipulation (omission, focalisation, obscurcissement). Testé sur 15 modèles frontier, il atteint l'état de l'art en détection de déception mono et multi-tour avec profils d'manipulation interprétables.

Multi-agents Sécurité IA Alignement

SIG

HYP

arXiv cs.CL·20 mai

HalluWorld: A Controlled Benchmark for Hallucination via Reference World Models

HalluWorld est un benchmark contrôlé pour évaluer les hallucinations des LLM via des mondes de référence explicites (gridworlds, échecs, tâches terminales). Les modèles frontier résolvent bien les hallucinations perceptuelles directes, mais échouent sur le suivi d'état multi-étapes et la simulation causale, même avec extended thinking.

Benchmarks Raisonnement Sécurité IA

SIG

HYP

arXiv cs.CL·20 mai

m3BERT: A Modern, Multi-lingual, Matryoshka Bidirectional Encoder

m3BERT est un modèle d'embedding multilingue utilisant une stratégie Matryoshka pour optimiser les représentations sur plusieurs dimensions et couches transformer. Prétraîné en trois étapes (monolingue, multilingue, domaine web), il surpasse les modèles existants sur Bing-Click et s'adapte à des contraintes de ressources variables.

Embeddings Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·20 mai

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA applique des modules LoRA uniquement aux experts les plus activés à chaque couche des modèles Mixture-of-Experts, réduisant les paramètres entraînables de 84% sur OlMoE et améliorant la précision de 9.2%. Testé sur OlMoE-1B-7B, Mixtral-8x7B et DeepSeekMoE sur raisonnement mathématique, génération de code et alignement.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·20 mai

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit est un framework de reinforcement learning qui améliore la capacité des LLM à gérer les critiques utilisateur en raisonnement scientifique. Il décompose les comportements en quatre quadrants (Correction, Sycophancy, Robustness, Boundary) et utilise des récompenses transition-aware. Sur ChemBench, TRQA et EarthSE, ReCrit améliore la précision de 38,15% à 51,49% sur Qwen3.5-4B.

Reinforcement learning Raisonnement Qwen

SIG

HYP

arXiv cs.LG·20 mai

Block-Based Double Decoders

Nouvelle architecture transformer « block-based double decoders » combinant l'efficacité d'entraînement des modèles decoder-only avec les gains d'inférence des encoder-decoder. Réduit la mémoire KV-cache et le calcul par token d'au moins 2/3 à l'inférence, tout en maintenant la supervision complète et l'empaquetage statique pendant l'entraînement.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.LG·20 mai

D-PACE: Dynamic Position-Aware Cross-Entropy for Parallel Speculative Drafting

D-PACE est une nouvelle fonction de perte pour l'accélération d'inférence LLM par décodage spéculatif. Elle adapte dynamiquement les poids d'entraînement par position en fonction des tokens qui limitent l'acceptation, améliorant la longueur acceptée et le speedup wall-clock de 2,3% sans modification architecturale.

Raisonnement Benchmarks Génération de code

SIG

HYP

arXiv cs.LG·20 mai

Compositional Literary Primitives in Instruction-Tuned LLMs: Cross-Architectural SAE Features for Self, Style, and Affect

Étude des primitives littéraires dans Llama 3.1 8B-Instruct et Gemma 2 9B-IT via autoencodeurs creux. Quatre classes de features identifiées : naming-gates (tokens d'affect), cluster self (registre première personne), modulateurs stylistiques, émotions compositionnelles. Llama couvre 27/27 émotions (taxonomie Cowen-Keltner), Gemma 23/27. Validation par panel de 5 juges LLM.

Llama Gemini Fine-tuning

SIG

HYP

arXiv cs.LG·20 mai

PASC: Pipeline-Aware Conformal Prediction with Joint Coverage Guarantees for Multi-Stage NLP and LLM Pipelines

PASC est une méthode de prédiction conforme qui garantit la couverture simultanée de tous les étages dans les pipelines NLP multi-étapes (NER → NED → entity typing, RAG, chaînes d'agents). Sur CoNLL-2003, PASC atteint 96,4% de couverture end-to-end vs 93,4% pour Bonferroni et 86,5% pour CP indépendant, avec 1,7x plus rapide et robustesse sous distribution shift (WNUT-17, WikiNEuRal).

Évaluations Raisonnement Agents IA

SIG

HYP

arXiv cs.CL·20 mai

SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models

SciCustom est un framework pour construire des benchmarks personnalisés évaluant les capacités scientifiques spécifiques des LLM. Il organise les connaissances scientifiques en unités ontologiques, utilise un consensus multi-modèle pour identifier les unités pertinentes, et génère des benchmarks à partir de données réelles en chimie et santé sans annotation experte.

Benchmarks Évaluations Papers

SIG

HYP

arXiv cs.LG·20 mai

Fine-Grained Benchmark Generation for Comprehensive Evaluation of Foundation Models

Framework automatisé pour générer des benchmarks d'évaluation fine-grained des modèles fondamentaux. Pipeline multi-agent avec stratégie solution-graph pour améliorer la fiabilité des solutions. Trois benchmarks générés (ML, Finance Entreprise, Finance Personnelle) montrent taux d'erreur inférieur à MMLU/GSM8K. Évaluation de 12 modèles révèle différences de performance non détectées par benchmarks existants.

Benchmarks Évaluations Multi-agents

SIG

HYP

arXiv cs.CL·20 mai

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Stepwise Confidence Attribution (SCA) diagnostique les erreurs de raisonnement multi-étapes dans les LLMs fermés en attribuant une confiance à chaque étape basée sur les traces générées. Deux méthodes : NIBS (non-paramétrique) et GIBS (basée graphe). Sur le raisonnement mathématique et QA multi-hop, SCA identifie les étapes erronées et améliore l'auto-correction de 13,5%.

Raisonnement Évaluations Papers

SIG

HYP

arXiv cs.LG·20 mai

How Faithful Is Trajectory-Based Data Attribution? Error Sources, Remedies, and Practical Guidelines

Analyse systématique des erreurs dans les méthodes d'attribution de données basées sur trajectoires. Identifie l'incompatibilité optimiseur (SGD vs AdamW) comme erreur dominante. Propose AdamW-influence avec améliorations de 10-300% en corrélation Spearman sur MLP, CNN, GPT-2, Llama 3.2-1B. Fournit directives pratiques pour sélection de données via framework K-step look-ahead.

Papers Évaluations Fine-tuning

SIG

HYP

arXiv cs.CL·20 mai

CAIT: A Syntactic Parsing Toolkit for Child-Adult InTeractions

CAIT est une boîte à outils open-source pour l'analyse syntaxique des interactions enfant-adulte dans CHILDES. Elle inclut un parseur de dépendances entraîné sur UD-English-CHILDES, un tagger POS et un tagger de constructions. Le parseur surpasse SpaCy et Stanza sur ce domaine spécialisé.

Open source Benchmarks

SIG

HYP

arXiv cs.LG·20 mai

Efficient Conditioning Why Pseudo Observation Batch Bayesian Optimization Works When It Does not

Étude théorique unifiant les méthodes de sélection batch en optimisation bayésienne parallèle (Constant Liar, Kriging Believer, fantasy models). Les auteurs identifient le « efficient conditioning » comme propriété clé des processus gaussiens, prouvant la génération de points distincts avec séparation d'ordre l. Validation expérimentale sur Hartmann6D, Ackley 8D, Levy10D et tuning SVM.

Benchmarks Papers

SIG

HYP