Page 22 sur 192

ToutHaut signalRécent

7679 articles

Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning

Étude de 16 modèles de langage (1.5B–72B paramètres) révélant que leur convergence représentationnelle ne s'étend pas au raisonnement. Les modèles s'alignent davantage sur les problèmes qu'ils échouent collectivement (CKA=0.897) que sur ceux résolus (CKA=0.830). Les représentations post-décision divergent fortement (CKA=0.274), et l'information partagée exerce une influence causale minimale (1.5–5.5% flip rate).

Papers Raisonnement Évaluations

SIG

HYP

arXiv cs.CL·25 mai

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

MaR (Metacognition-as-Reward) est un framework RL qui améliore le raisonnement des LLM via deux dimensions : la connaissance métacognitive (identification d'infos pertinentes) et la régulation métacognitive (planification du processus). Testé sur 22 benchmarks, Qwen3.5-9B + MaR gagne jusqu'à 7.7% vs modèle de base et 11.0% vs DAPO vanilla, surpassant GPT-OSS-120B en moyenne.

Reinforcement learning Raisonnement Qwen

SIG

HYP

arXiv cs.LG·25 mai

Reading Calibrated Uncertainty from Language Model Trajectories

Méthode pour quantifier l'incertitude dans les modèles de langage en analysant les trajectoires de représentations internes couche par couche. Onze features géométriques extraites des mises à jour MLP surpassent la probabilité softmax maximale (MSP) de 21 points AURC, révélant où et comment les erreurs émergent en profondeur.

Évaluations Raisonnement Sécurité IA

SIG

HYP

arXiv cs.LG·25 mai

The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

Sur des modèles 1-3B, le CoT en arithmétique repose sur un raccourci positionnel : le modèle copie simplement le nombre en dernière position avant le délimiteur de réponse, indépendamment du raisonnement intermédiaire. Cette stratégie explique 54-92 pp de précision sur GSM8K. Remplacer ce nombre par une valeur incorrecte effondre la performance même avec des étapes correctes.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·25 mai

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Étude montrant que le raisonnement explicite (CoT) n'est bénéfique que sur certaines tâches. Les auteurs proposent EDRM, un framework sans entraînement qui utilise la dynamique d'entropie en début de génération pour router adaptivement vers CoT ou inférence directe. Sur 15 benchmarks et 4 LLMs, EDRM réduit les tokens de 41–55% tout en améliorant la précision jusqu'à 4,7%.

Raisonnement Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·25 mai

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Tensor Cache propose un système de cache à deux niveaux pour transformateurs : attention glissante locale (L1) + mémoire à poids rapides (L2) stockant les paires KV évincées sous forme de matrice. Un gate appris fusionne les sorties. Améliore le compromis mémoire-qualité sur modèles long-contexte.

Raisonnement Infrastructure Benchmarks

SIG

HYP

arXiv cs.AI·25 mai

BOHM: Zero-Cost Hierarchical Attribution for Compound AI Systems

BOHM est une méthode d'attribution hiérarchique pour systèmes IA composés qui extrait directement les contributions des composants à partir des poids de routage, sans évaluer les sous-ensembles. Coût marginal zéro, compatible avec APIs tierces opaques. Sur 18 LLMs (880 problèmes LiveCodeBench), Kendall tau=0.928 vs SHAP tau=0.980 avec 9000x plus d'évaluations.

Agents IA Évaluations Raisonnement

SIG

HYP

arXiv cs.LG·25 mai

Learned Relay Representations for Forward-Thinking Discrete Diffusion Models

Learned Relay Representations (Relay) permet aux Masked Diffusion Models de propager l'information latente entre étapes de débruitage via un canal par token entraîné en BPTT. Appliqué à Fast-dLLM v2, la méthode surpasse le fine-tuning supervisé sur tâches de code et réduit la latence d'inférence de 32%.

Génération de code Raisonnement Papers

SIG

HYP

arXiv cs.AI·25 mai

LFRAG: Layout-oriented Fine-grained Retrieval-Augmented Generation on Multimodal Document Understanding

LFRAG propose un système RAG multimodal basé sur la récupération au niveau des blocs plutôt que des pages. Un encodeur fusion sémantique-layout intègre contexte local et global. Sur le benchmark LFDocQA, LFRAG améliore la précision de 7,20% et réduit la consommation de tokens de 73,07%.

RAG Vision Benchmarks

SIG

HYP

arXiv cs.LG·25 mai

Anytime Training with Schedule-Free Spectral Optimization

SF-NorMuon, un optimiseur spectral sans calendrier, égale ou surpasse AdamW sur des modèles de langage de 125M et 772M paramètres sans nécessiter de calendrier d'apprentissage prédéfini. Preuve théorique de garantie de stationnarité et identification de la décroissance de poids comme essentielle pour la stabilité long-horizon.

Reinforcement learning Benchmarks Papers

SIG

HYP

arXiv cs.LG·25 mai

GEMQ: Global Expert-Level Mixed-Precision Quantization for MoE LLMs

GEMQ propose une quantification mixte au niveau expert pour les modèles MoE-LLM. La méthode utilise une formulation de programmation linéaire globale pour estimer l'importance des experts et affine le routeur pour adapter le routage aux experts quantifiés. Résultats : réduction mémoire et accélération inférence avec dégradation minimale.

SIG

HYP

arXiv cs.LG·25 mai

Test-Time Training Undermines Safety Guardrails

Une étude arXiv révèle que l'entraînement au moment du test (TTT) crée des vulnérabilités de sécurité. Les chercheurs identifient trois modèles de menace permettant de contourner les filtres de sécurité : avec LoRA, les taux de succès d'attaque atteignent 95% et 93% respectivement. Les vulnérabilités se transfèrent aux APIs de fine-tuning en production.

Sécurité IA Alignement Fine-tuning

SIG

HYP

arXiv cs.AI·25 mai

One Policy, Infinite NPCs: Persona-Traceable Shared RL Policies for Scalable Game Agents

PCSP, une politique RL unique conditionnée par embeddings LLM gelés, contrôle 300 NPCs avec identités distinctes. Atteint 17x la chance en identification zero-shot, ρ=0.73 d'alignement sémantique-comportemental, 22x plus rapide qu'un baseline LLM. Déployé en UE5 sur 64 agents avec faible taux d'erreur.

Reinforcement learning Agents IA Multi-agents

SIG

HYP

arXiv cs.LG·25 mai

ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

ThriftAttention combine précision mixte (FP16/FP4) pour l'attention long-contexte sur GPU Blackwell. En sélectionnant 5% des blocs query-key critiques en FP16 et le reste en FP4, la méthode récupère 89,1% de la performance FP16 tout en maintenant l'efficacité FP4. Code disponible.

Benchmarks Infrastructure Raisonnement

SIG

HYP

arXiv cs.AI·25 mai

MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection

MemAudit est un framework d'audit post-hoc pour détecter les mémoires empoisonnées dans les agents LLM. Il combine un score d'influence contrefactuelle et un graphe de cohérence mémoire pour identifier les enregistrements malveillants injectés via interactions normales. Évalué contre l'attaque MINJA, il réduit le taux de succès de 70% à 0% en QA et de 83,3% à 0% en reasoning.

Agents IA Sécurité IA RAG

SIG

HYP

arXiv cs.CL·25 mai

Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

Fast-dDrive est un modèle VLA (Vision-Language-Action) basé sur la diffusion par blocs pour la conduite autonome. Il combine raffinement bidirectionnel au sein d'unités sémantiques avec un ordre causal strict, gère les sorties JSON structurées et atteint 12× d'accélération de débit avec SGLang. Sur nuScenes, erreur L2 réduite à 0,32m (amélioration 22%), SOTA sur WOD-E2E.

Vision Génération de code Raisonnement

SIG

HYP

arXiv cs.CL·25 mai

Multilingual Steering by Design: Multilingual Sparse Autoencoders and Principled Layer Selection

Les autoencodeurs creux (SAE) entraînés sur données multilingues améliorent le contrôle de langue dans les LLM. Les auteurs proposent une règle de sélection de couche basée sur l'alignement multilingue et la séparabilité linguistique, validée sur LLaMA-3.1-8B et Gemma-2-9B en traduction et résumé cross-lingue.

Benchmarks

SIG

HYP

arXiv cs.AI·25 mai

From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

Étude systématique du cycle de vie complet des skills générés par modèles IA : extraction, consommation et transfert. Framework d'évaluation couvrant 5 domaines agentic. Résultats : skills bénéfiques en moyenne mais transfert négatif non-trivial ; performance d'extraction/consommation indépendante de la taille du modèle. Introduction d'une meta-skill pour améliorer la qualité.

Agents IA Multi-agents Reinforcement learning

SIG

HYP

arXiv cs.AI·25 mai

Agentic Proving for Program Verification

Claude Code évalué sur CLEVER (benchmark Lean 4) génère des spécifications valides pour 98,8% des problèmes, certifie 87,5% des implémentations et atteint 98,1% de succès en pipeline end-to-end. L'étude révèle un décalage entre la difficulté des benchmarks actuels et les capacités des prouveurs agentic modernes.

Claude Code Agents IA Raisonnement

SIG

HYP

arXiv cs.CL·25 mai

A Reproducible Universal Dependencies-Style Pipeline for Katharevousa Greek Parliamentary Text

Pipeline reproductible pour construire une ressource de parsing Universal Dependencies pour le grec Katharevousa (textes parlementaires grecs post-junte). Dataset de 1.697 phrases annotées, comparaison de 6 architectures (spaCy, Stanza, XLM-R, mBERT, etc.). Meilleur modèle (XLM-R) : 0.5162 LAS vs 0.4183 pour baseline. Code et annotations publiés en open-access.

Papers Benchmarks Open source

SIG

HYP

Reddit r/MachineLearning·25 mai

Sponsio: Deterministic Contract Layer for LLM Agents [P]

Sponsio introduit une couche de contrats déterministes pour les agents LLM en production. Les opérateurs déclarent des invariants en YAML compilés en AST évalué à chaque appel d'outil. Benchmark ODCV-Bench (12 modèles × 80 trajectoires) : sans Sponsio, 11.5%-66.7% de violations ; avec Sponsio, 95.6% d'alignement retrouvé en moyenne.

Agents IA Sécurité IA Outils

SIG

HYP

The Decoder·24 mai

Researchers let Claude Code discover AI scaling algorithms that humans probably wouldn't have designed

Des chercheurs de UMD, Google et Meta utilisent AutoTTS pour laisser Claude Code découvrir indépendamment des algorithmes de contrôle pour le raisonnement IA. L'algorithme trouvé réduit la consommation de calcul de 70% comparé à la self-consistency standard tout en conservant la précision. La recherche a coûté 40$ et pris 160 minutes.

Claude Code Agents IA Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·23 mai

Command A+ (218B MoE) running on Apple Silicon — MLX port, PR open

Cohere a publié Command A+ (218B MoE, 25B actifs) le 20e. Un portage MLX pour Apple Silicon est en cours de PR : implémentation cohere2_moe avec routing sigmoid, 128 experts top-8, fenêtre glissante 3:1. Validation sur M3 Max (128GB) : 22.9 tok/s génération, 57.6 tok/s prompt en BF16→Q8.

Open source Infrastructure Génération de code

SIG

HYP

Reddit r/LocalLLaMA·23 mai

Benchmarked Needle 26M vs Qwen3-0.6B on CPU function calling, 50 queries across 5 difficulty tiers. The 23x smaller model wins on accuracy and is 4.4x faster.

Benchmark CPU de Needle (26M) vs Qwen3-0.6B sur function calling : 50 requêtes, 5 niveaux de difficulté. Needle gagne en précision (72% vs 56% tool_match) et latence (10.9s vs 47.9s). Needle échoue sur la sélection d'outil, Qwen3 sur l'émission de tags. Qwen3 domine sur requêtes multilingues (Hindi, français).

Qwen Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·23 mai

Apex-Testing: real-world, real repos, agentic coding benchmark (Update)

Apex-Testing, benchmark de codage agentic basé sur 65-70 repos GitHub réels, a été mis à jour à 95% avec les modèles récents. 70 tâches réparties en 8 catégories testent les capacités d'agents IA sur du code production. Classement ELO, métriques de coût/temps et comparaisons disponibles. Qwen 3.7 Max, Deepseek v4 et autres modèles en cours de complétion.

Agents IA Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·23 mai

I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results

Contribution à exo : support natif de la prédiction multi-token (MTP) pour modèles Qwen 3.6 MLX. Tests sur 27B (gain 2x à K=2/K=3) et 35B-A3B (gain 1.16x à K=1). Exactitude vérifiée : tokens identiques au chemin greedy, acceptation par ratio probabiliste en sampling.

Qwen Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·22 mai

CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs

CODA est une abstraction GPU qui réécrit les blocs Transformer en programmes GEMM-épilogue. Elle fusionne les opérations mémoire-limitées (normalisation, activations, résidus) avec la sortie GEMM avant écriture en mémoire, réduisant les mouvements de données. Couvre presque tout le calcul non-attention en forward/backward pass.

Infrastructure Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·22 mai

ztok — a fast multithreaded tokenizer in Zig that loads tiktoken / HF / SentencePiece and is 2–5× faster

ztok est une bibliothèque de tokenization multithreadée écrite en Zig, 2–5× plus rapide que tiktoken/HF/SentencePiece. Charge formats tiktoken, HF tokenizer.json, SentencePiece, TokenMonster, Mistral Tekken. Bit-identique aux implémentations de référence, 8 bindings de langages, optimisée pour RAG et tokenization dataset.

Outils RAG Open source

SIG

HYP

arXiv cs.AI·22 mai

PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

PlanningBench est un framework pour générer des données de planification scalables et vérifiables. Il abstrait 30+ types de tâches et facteurs de difficulté à partir de scénarios réels, puis synthétise des problèmes avec contrôle adaptatif et vérification automatique. L'entraînement par RL sur ces données améliore les performances sur des benchmarks non vus.

Benchmarks Raisonnement Reinforcement learning

SIG

HYP

arXiv cs.LG·22 mai

Embedding-Based Federated Learning with Runtime Governance for Iron Deficiency Prediction

Déploiement réel d'un pipeline federated learning pour prédire la carence en fer à partir de données de numération formule sanguine. Utilise DeepCBC (modèle fondation haematologie gelé) + FedMAP (agrégation personnalisée). Testé sur deux sites cliniques (AUMC, NHSBT) avec données non-IID. FedMAP améliore ROC-AUC de 0.947→0.959 (AUMC) et 0.856→0.867 (NHSBT) vs entraînement local.

Embeddings Benchmarks

SIG

HYP

arXiv cs.CL·22 mai

TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation

TransitLM : dataset de 13M+ trajets de transport en commun (4 villes chinoises, 120k stations) pour entraîner des LLM à générer des itinéraires sans infrastructure cartographique. Les modèles apprennent à ancrer les coordonnées GPS aux stations et produisent des routes structurellement valides sans mapping explicite.

Benchmarks Papers Génération de code

SIG

HYP

arXiv cs.LG·22 mai

Provable Joint Decontamination for Benchmarking Multiple Large Language Models

JECS (Joint Envelope Conformal Selection) est une méthode pour décontaminer les benchmarks d'évaluation LLM en contrôlant le taux de contamination global (GCR) entre plusieurs modèles. Elle agrège les p-valeurs conformales par modèle et applique la procédure Benjamini-Hochberg adaptée pour sélectionner un benchmark fiable sans biais de comparaison croisée.

Benchmarks Évaluations Sécurité IA

SIG

HYP

arXiv cs.LG·22 mai

Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins

GOEN (Geometry-Optimised Epistemic Network) combine features multi-échelles, normalisation L2, distance de Mahalanobis et calibration pour détecter les entrées hors-distribution. Découverte clé : CenterLoss dégrade la détection OOD (AUROC 0.9366 vs 0.9483 sans), bien qu'il améliore la précision. GOEN-NoCenterLoss atteint 0.9483 AUROC sur CIFAR-10, surpassant ensembles profonds (0.8827), KNN (0.8967) et ODIN (0.8870).

Sécurité IA Évaluations Benchmarks

SIG

HYP

arXiv cs.LG·22 mai

From Parameters to Data: A Task-Parameter-Guided Fine-Tuning Pipeline for Efficient LLM Alignment

P2D, un framework d'alignement LLM, couple sélection de données et fine-tuning efficace en paramètres. En identifiant les têtes d'attention critiques pour chaque tâche, P2D mine des données pertinentes et élaguer 90% des paramètres. Résultat : +8.3pp de performance et 7.0x d'accélération avec seulement 10% des données et 10% des têtes.

Fine-tuning Raisonnement Alignement

SIG

HYP

arXiv cs.LG·22 mai

When Are Teacher Tokens Reliable? Position-Weighted On-Policy Self-Distillation for Reasoning

Les auteurs identifient que la fiabilité des tokens du teacher en auto-distillation dépend de leur position dans la trajectoire de raisonnement, pas de l'entropie locale. Ils proposent PW-OPSD, qui pondère les tokens par position croissante. Sur Qwen3-4B, AIME 2024/2025 gagnent +1.0/+1.1 points; validation sur DeepSeek-R1-Distill-Llama-8B et Olmo-3-7B-Think confirme les gains.

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·22 mai

EntmaxKV: Support-Aware Decoding for Entmax Attention

EntmaxKV propose un framework de décodage sparse pour l'attention entmax, exploitant les zéros exacts produits par entmax versus les queues denses du softmax. Combine scoring de pages, sélection de candidats et attention entmax sparse. Atteint 3.36× speedup (softmax) et 5.43× (entmax) sur contexte 1M avec fraction réduite du KV cache.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.LG·22 mai

X-Token: Projection-Guided Cross-Tokenizer Knowledge Distillation

X-Token propose une distillation de connaissance cross-tokenizer via deux formulations de perte complémentaires (P-KL et H-KL) utilisant une matrice de projection W. Sur Llama-3.2-1B, la méthode surpasse GOLD de +3.82 points avec Qwen3-4B et +0.5 avec Phi-4-Mini; deux enseignants (Phi-4-mini + Llama-3B) gagnent +1.3 points.

Fine-tuning Benchmarks Llama

SIG

HYP

arXiv cs.AI·22 mai

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

OSCToM combine RL et modèles de substitution pour générer des conflits observateur-agent dans les tâches de théorie de l'esprit. Sur FANToM (benchmark asymétrique en information), OSCToM-8B atteint 76% de précision vs 0,2% pour ExploreToM. La synthèse de données est 6x plus efficace.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.AI·22 mai

Open-World Evaluations for Measuring Frontier AI Capabilities

Nouvelle approche d'évaluation des IA frontière : les « open-world evaluations » complètent les benchmarks en testant des tâches réelles complexes sur long terme. Le projet CRUX teste un agent IA capable de développer et publier une app iOS sur l'App Store avec une seule intervention manuelle, révélant des capacités émergentes.

Évaluations Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·22 mai

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas propose une évaluation multidimensionnelle des agents LLM au-delà des simples taux de succès. L'étude introduit une taxonomie de 6 états de contrôle, une taxonomie d'erreurs à 9 catégories, et audite 15 benchmarks existants. Sur 8 modèles (4 fermés, 4 open-weight), retirer les labels explicites réduit la précision de 14-40 pp, révélant une dépendance forte au prompt.

Agents IA Benchmarks Évaluations

SIG

HYP