Page 15 sur 138

ToutHaut signalRécent
5481 articles
arXiv cs.LG·

How Faithful Is Trajectory-Based Data Attribution? Error Sources, Remedies, and Practical Guidelines

Analyse systématique des erreurs dans les méthodes d'attribution de données basées sur trajectoires. Identifie l'incompatibilité optimiseur (SGD vs AdamW) comme erreur dominante. Propose AdamW-influence avec améliorations de 10-300% en corrélation Spearman sur MLP, CNN, GPT-2, Llama 3.2-1B. Fournit directives pratiques pour sélection de données via framework K-step look-ahead.

PapersÉvaluationsFine-tuning
SIG
78
HYP
15
arXiv cs.LG·

PASC: Pipeline-Aware Conformal Prediction with Joint Coverage Guarantees for Multi-Stage NLP and LLM Pipelines

PASC est une méthode de prédiction conforme qui garantit la couverture simultanée de tous les étages dans les pipelines NLP multi-étapes (NER → NED → entity typing, RAG, chaînes d'agents). Sur CoNLL-2003, PASC atteint 96,4% de couverture end-to-end vs 93,4% pour Bonferroni et 86,5% pour CP indépendant, avec 1,7x plus rapide et robustesse sous distribution shift (WNUT-17, WikiNEuRal).

ÉvaluationsRaisonnementAgents IA
SIG
78
HYP
15
arXiv cs.LG·

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit est un framework de reinforcement learning qui améliore la capacité des LLM à gérer les critiques utilisateur en raisonnement scientifique. Il décompose les comportements en quatre quadrants (Correction, Sycophancy, Robustness, Boundary) et utilise des récompenses transition-aware. Sur ChemBench, TRQA et EarthSE, ReCrit améliore la précision de 38,15% à 51,49% sur Qwen3.5-4B.

Reinforcement learningRaisonnementQwen
SIG
78
HYP
25
arXiv cs.CL·

DECOR: Auditing LLM Deception via Information Manipulation Theory

DECOR est un framework multi-agent pour auditer la déception dans les LLM en décomposant les contextes en unités informationnelles atomiques et en évaluant quatre dimensions de manipulation (omission, focalisation, obscurcissement). Testé sur 15 modèles frontier, il atteint l'état de l'art en détection de déception mono et multi-tour avec profils d'manipulation interprétables.

Multi-agentsSécurité IAAlignement
SIG
78
HYP
25
arXiv cs.AI·

Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents

Formal Skill est une abstraction runtime pour les agents LLM qui structure les compétences réutilisables via métadonnées JSON, schémas d'action, exécuteurs Python et logique de contrôle par hooks. Implémentée dans FairyClaw (runtime open-source événementiel), elle remplace les procédures en texte naturel par des machines à états exécutables, réduisant les tokens tout en améliorant la fiabilité sur Harness-Bench.

Agents IAMCPGénération de code
SIG
78
HYP
25
arXiv cs.CL·

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

REFLECT est un benchmark de méta-évaluation pour tester la fiabilité des juges LLM supervisant des agents de recherche. Les auteurs créent une taxonomie fine des défaillances (processus et résultats) via interventions contrôlées sur des traces d'exécution. Résultat : les meilleurs modèles LLM atteignent <55% de précision sur la vérification d'evidence et le raisonnement.

Agents IAÉvaluationsRaisonnement
SIG
78
HYP
15
arXiv cs.LG·

Not All Tokens Are Worth Caching: Learning Semantic-Aware Eviction for LLM Prefix Caches

SAECache propose une politique d'éviction sémantique pour les caches de préfixes LLM. Les tokens ne sont pas tous aussi utiles à cacher : certains types (prompts système, requêtes utilisateur, outputs d'outils) montrent jusqu'à 756x de variation en taux de réutilisation. SAECache utilise une architecture multi-queue avec apprentissage en ligne pour adapter les priorités, atteignant 1.4x-2.7x d'amélioration TTFT.

RaisonnementInfrastructureBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next

Analyse de 34 modèles frontier (2024-2026) montrant que les capacités de raisonnement et codage coopèrent (r=+0.72) mais avec variations par lab. DeepSeek a basculé de reasoning-first à coding-first (+11.2→-4.7); Google maintient l'équilibre; Anthropic oscille. SWE-bench sature tandis que HLE et instruction-following restent discriminants. Prédictions falsifiables pour 12 mois avec dashboard interactif.

BenchmarksÉvaluationsRaisonnement
SIG
78
HYP
22
arXiv cs.AI·

POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents

POLAR-Bench est un benchmark diagnostique évaluant les compromis confidentialité-utilité dans les agents LLM. Un modèle de confiance avec politique de confidentialité interagit avec un modèle tiers adversarial sur 10 domaines et 7,852 échantillons. Les modèles frontière retiennent 99% des attributs protégés, mais les modèles open-weight 1-30B (courants en inférence privée) fuient jusqu'à 50% des données sensibles.

Agents IASécurité IAAlignement
SIG
78
HYP
25
arXiv cs.CL·

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

GoLongRL propose une recette post-training open-source pour l'apprentissage par renforcement en contexte long avec récompenses vérifiables. Les auteurs publient un dataset de 23K samples RLVR couvrant 9 types de tâches, et introduisent TMN-Reweight pour optimiser les récompenses hétérogènes. Qwen3-30B-A3B atteint des performances comparables à DeepSeek-R1 et Qwen3-235B.

Reinforcement learningRaisonnementBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Benchmark de cinq systèmes ASR commerciaux sur le code-switching (alternance entre deux langues) pour quatre paires linguistiques : arabe égyptien-anglais, arabe saoudien-anglais, persan-anglais, allemand-anglais. ElevenLabs Scribe v2 obtient le meilleur WER (13,2% global). L'étude propose BERTScore comme métrique plus fiable que WER pour l'arabe et le persan.

BenchmarksVoixÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

(Sparse) Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models

Mosaic, un modèle probabiliste de prévision météorologique, corrige trois défaillances spectrales des modèles ML : l'amortissement spectral, l'aliasing haute fréquence et les fuites résiduelles. Avec 214M paramètres à 1.5° de résolution, il égale des modèles entraînés 6× plus fins et génère des ensembles bien calibrés en 12s pour 10 jours sur H100.

PapersBenchmarksVision
SIG
78
HYP
15
arXiv cs.LG·

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Les chercheurs proposent IBPO (Implicit Behavior Policy Optimization), une méthode de crédit assignment pour l'apprentissage par renforcement avec LLM. En comparant plusieurs trajectoires de raisonnement, le framework transforme les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks mathématiques et de code.

Reinforcement learningRaisonnementGénération de code
SIG
78
HYP
25
arXiv cs.LG·

AdaGraph: A Graph-Native Clustering Algorithm That Overcomes the Curse of Dimensionality and Enables Scientific Discovery

AdaGraph est un algorithme de clustering graph-native qui élimine la malédiction de la dimensionnalité en opérant sur la topologie des graphes kNN plutôt que sur les distances euclidiennes. Testé sur 10 benchmarks synthétiques (d=10 à 5000) et trois domaines scientifiques (génomique, NLP, matériaux), il surpasse HDBSCAN, WGCNA et autres méthodes sans spécifier k a priori.

BenchmarksPapers
SIG
78
HYP
35
arXiv cs.LG·

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusion en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progression de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 36.3pp en satisfaction de contraintes.

Reinforcement learningRaisonnementGénération de code
SIG
78
HYP
15
arXiv cs.LG·

LoopQ: Quantization for Recursive Transformers

LoopQ est un framework de quantification post-entraînement (PTQ) conçu pour les modèles de langage récursifs (LoopLMs) qui réutilisent les blocs Transformer. Il résout trois défis : décalage de distribution entre rôles, réutilisation d'état entre boucles, et accumulation d'erreur récursive. Sous quantification W4A4, LoopQ améliore la précision de 68,8% et réduit la perplexité de 87,7% vs baseline PTQ statique.

RaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.LG·

TailedTS: Benchmark Dataset for Heavy-Tailed Time Series Prediction and Periodicity Quantification

TailedTS est un benchmark de 24,69 milliards de points de données issu des vues Wikipedia 2024, conçu pour tester les modèles de prévision de séries temporelles sous conditions heavy-tailed et non-gaussiennes. Le dataset révèle que 5% des pages génèrent 70% du trafic, et introduit un cadre de quantification de périodicité montrant que les pages très consultées ont une structure périodique plus faible.

Benchmarks
SIG
78
HYP
15
arXiv cs.LG·

Mixing Times of Glauber Dynamics on Masked Language Models

Les modèles de langage masqué (MLM) définissent des distributions conditionnelles locales incompatibles avec une distribution jointe globale cohérente. Les auteurs modélisent le rééchantillonnage itératif comme une chaîne de Markov Glauber dynamics et prouvent un temps de mélange O(n log n) sous influence cross-token bornée, mais exhibent une métastabilité exponentielle à basse température.

PapersRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Étude révélant une asymétrie de visibilité des datasets multilingues : 118 langues (59% des 200 plus parlées) ont zéro dataset catalogué selon LRE Map et LDC. Via citation-mining sur Semantic Scholar, les auteurs identifient 609 datasets uniques dans 53 langues peu visibles, dont 356 accessibles publiquement. La rareté multilingue est un problème de documentation et discoverabilité, pas seulement de production.

BenchmarksOpen sourcePapers
SIG
78
HYP
15
arXiv cs.AI·

AdaptiveLoad: Towards Efficient Video Diffusion Transformer Training

AdaptiveLoad optimise l'entraînement des Transformers de diffusion vidéo (DiT, MMDiT) en résolvant le déséquilibre de charge causé par la complexité quadratique de l'attention. Deux composants : équilibrage adaptatif dual et kernel CUDA LayerNorm-Modulate fusionné. Sur Wan 2.1 : déséquilibre computationnel réduit de 39% à 18,9%, utilisation VRAM +22,7%, débit +27,2%.

Génération de vidéosInfrastructureBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

BacktestBench est le premier benchmark large-scale pour le backtesting quantitatif automatisé, contenant 18 246 paires QA annotées à partir de 6 millions de données de marché réelles. AutoBacktest, un système multi-agent, traduit les stratégies en langage naturel en backtests reproductibles via coordination Summarizer-Retriever-Coder. Évaluation sur 23 LLMs identifie les facteurs clés de performance.

Agents IAMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.AI·

Towards Sustainable Growth: A Multi-Value-Aware Retrieval Framework for E-Commerce Search

GrowthGR, un framework de retrieval pour e-commerce, résout le problème du « Matthew effect » en équilibrant conversion immédiate et croissance long-terme des nouveaux produits. Déployé sur Taobao, il combine prédiction de valeur transactionnelle (ItemLTV) et optimisation multi-valeurs (MoPO), atteignant +5.3% GMV nouveaux items et +0.3% GMV global.

RAGReinforcement learningBusiness
SIG
78
HYP
25
arXiv cs.AI·

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Étude montrant que les modèles de langage fine-tunés sur les échecs mémorisent plutôt que de généraliser. KinGPT (25M params) surpasse ChessGPT (3B) et C1-4B sur des benchmarks d'échecs, mais l'analyse révèle une reconnaissance de motifs. LLM-Modulo, framework avec vérificateur externe, améliore RedPajama 3B de 1,2% à 21,2% en précision de coups. Code et modèles open-sourcés.

BenchmarksÉvaluationsFine-tuning
SIG
78
HYP
25
arXiv cs.AI·

WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games

WebGameBench est un benchmark évaluant si les agents de code peuvent transformer une spécification de jeu web en application jouable dans un navigateur. Sur 111 tâches et 12 agents, le meilleur atteint 76,9% de taux utilisable mais seulement 20,2% excellent, révélant un écart entre livraison minimale et satisfaction complète des exigences.

Agents IAGénération de codeBenchmarks
SIG
78
HYP
25
arXiv cs.AI·

Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models

Les chercheurs identifient l'Entropy-Gradient Inversion, une corrélation négative entre l'entropie des tokens et les gradients de logits, comme signature géométrique des capacités de raisonnement des grands modèles. Ils proposent CorR-PO, une méthode d'optimisation par renforcement intégrant cette signature dans la régularisation des récompenses, surpassant les baselines sur plusieurs benchmarks de raisonnement.

RaisonnementReinforcement learningBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

PROTEA: Offline Evaluation and Iterative Refinement for Multi-Agent LLM Workflows

PROTEA est une interface pour déboguer et affiner les workflows multi-agents LLM hors ligne. Elle évalue les sorties intermédiaires avec des rubriques configurables, localise les goulots d'étranglement via le graphe du workflow, et génère des révisions de prompts ciblées. Sur deux workflows en production, PROTEA améliore la précision de 64,3% à 83,9% et le Hit@5 de 0,30 à 0,38.

Multi-agentsAgents IAPrompt engineering
SIG
78
HYP
18