Page 5 sur 192

ToutHaut signalRécent

7679 articles

InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization

InfoQuant propose une méthode de quantification post-entraînement (PTQ) sans entraînement pour les LLM. Elle utilise Peak Suppression Orthogonal Transformation (PSOT) pour transformer les activations en distributions plus faciles à quantifier. Sur LLaMA-2 13B en W4A4KV4, elle préserve 97% de la précision et réduit l'écart de performance de 42% par rapport à l'état de l'art.

Llama Papers Benchmarks

SIG

HYP

arXiv cs.CL·27 mai

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

EnterpriseMem-Bench, un benchmark multi-tour Text-to-SQL de 1 400 tours sur 300 sessions, évalue GPT-5 mini, GPT-5.2, Claude Sonnet 4.5/4.6 et Opus 4.6. Résultats clés : sans mémoire, la précision s'effondre dès le tour 3 ; la mémoire de travail domine les architectures complexes ; Sonnet 4.6 régresse de 17-33pp sur SEC EDGAR vs Sonnet 4.5.

Benchmarks Génération de code GPT

SIG

HYP

arXiv cs.CL·26 mai

Raon-Speech Technical Report

Raon-Speech est un modèle de langage parlé 9B multilingue (anglais/coréen) capable de comprendre et générer la parole tout en préservant les capacités textuelles. Entraîné sur 1,38M heures de données, il surpasse 8 modèles audio comparables (Qwen2.5-Omni, Fun-Audio-Chat) sur 42 benchmarks. Raon-SpeechChat ajoute la conversation full-duplex temps réel via 119K heures de dialogue.

Voix Benchmarks Open source

SIG

HYP

arXiv cs.CL·26 mai

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

QUEST est une famille de modèles open-source (2B à 35B) entraînés comme agents de recherche profonde via une pipeline de synthèse de données et RL. Avec seulement 8K tâches synthétiques, QUEST égale ou surpasse les systèmes propriétaires sur 8 benchmarks de recherche, excelle en citation et synthèse de rapports. Code, données et modèles publiés.

Agents IA Reinforcement learning Open source

SIG

HYP

arXiv cs.LG·26 mai

ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

ChaosBench-Logic v2 est un benchmark de 40 886 questions évaluant le raisonnement logique de 14 LLM sur 165 systèmes dynamiques. Le protocole CARE révèle des défaillances critiques : le raisonnement sur les transitions de régime reste quasi-aléatoire (MCC=0.05), tandis que la déduction FOL atteint MCC=0.52. Qwen 2.5-32B surpasse les modèles propriétaires en diagnostics d'indicateurs.

Benchmarks Raisonnement Qwen

SIG

HYP

arXiv cs.LG·26 mai

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propose un cadre de découverte scientifique en boucle fermée couplant génération d'hypothèses, sélection d'expériences et raffinement de mécanismes. Évalué sur ActiveSciBench (57 tâches de cinétique enzymatique, 45 réseaux de régulation génique), le système atteint 67,6% de précision symbolique et 2-5x meilleure efficacité d'échantillonnage que les baselines.

Raisonnement Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·26 mai

EvoCode-Bench: Evaluating Coding Agents in Multi-Turn Iterative Interactions

EvoCode-Bench évalue 13 agents de codage sur 26 tâches avec 5-15 tours itératifs. Les agents doivent maintenir un codebase fonctionnel face à des changements de spécifications. Résultat : écart de 22-40 points entre performance single-round (SR) et multi-tour (MT@4), avec succès <50% en multi-tour et dégradation progressive (taux de réussite divisé par 2 au tour 5).

Génération de code Agents IA Benchmarks

SIG

HYP

arXiv cs.AI·26 mai

BODHI: Precise OS Kernel Specification Inference

BODHI, une méthode de prompting par connaissance de domaine, améliore la génération automatique de spécifications de noyaux OS via LLM. Testée sur 9 modèles (Anthropic, Mistral, Amazon, DeepSeek, Meta, Alibaba), elle atteint 96.73% Pass@1 avec Claude Opus 4.6, contre 55.10% en baseline, en structurant la traduction C-to-Python par catégories de patterns.

Prompt engineering Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·26 mai

How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning

Étude quantifiant la redondance dans le raisonnement des LLM : 61-93% des étapes de pensée peuvent être supprimées sans affecter la réponse correcte. Analyse sur 4 modèles frontier et 2 benchmarks mathématiques (MATH-500). La redondance est structurelle, liée aux récompenses indépendantes de la longueur, non un artefact modèle-spécifique.

Raisonnement Benchmarks Papers

SIG

HYP

arXiv cs.CL·26 mai

CSP-Atlas: Concept-Specific Neural Circuits in a Sparse Python Transformer

Une étude identifie 106 circuits neuronaux dédiés dans un transformateur sparse 8-couches entraîné sur du code Python. Les circuits se structurent selon des principes computationnels (atomicité, ambiguïté lexicale) plutôt que sémantiques. 62,5% des neurones les plus actifs aux couches intermédiaires sont concept-spécifiques pour les construits AST.

Génération de code Raisonnement Papers

SIG

HYP

Reddit r/MachineLearning·25 mai

𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]

Delta Attention Residuals améliore les connexions résiduelles en routant sur les différences entre couches (deltas) plutôt que sur les états cachés cumulatifs. Résultats : −8.2% PPL à 7.6B, routing 1.8× plus net (max weight 0.2→0.6), <0.01% overhead paramétrique. Code et paper disponibles.

Papers Benchmarks Open source

SIG

HYP

arXiv cs.LG·25 mai

FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning

FuRA propose une méthode de fine-tuning efficace en paramètres basée sur la décomposition SVD complète des matrices de poids. En gelant une base singulière préentraînée et optimisant uniquement les composantes compactes via factorisation tensor-train, FuRA surpasse le fine-tuning complet et LoRA sur LLaMA-3-8B (+1.37 en raisonnement) et VLMs, avec efficacité comparable à LoRA.

Fine-tuning Llama Reinforcement learning

SIG

HYP

arXiv cs.CL·25 mai

Brain-LLM Alignment Tracks Training Data, Not Typology

L'alignement cerveau-LLM dépend de la langue d'entraînement, non de propriétés inhérentes à l'anglais. Test sur 112 participants (anglais, chinois, français) avec 7 LLMs : un modèle dominé par le chinois (Baichuan2-7B) inverse le gradient d'alignement. La distance typologique et la fertilité de tokenization expliquent les variations restantes.

Benchmarks Alignement Papers

SIG

HYP

arXiv cs.CL·25 mai

Sparse Autoencoders Map Brain-LLM Alignment onto Cortical Semantic Topography

Des autoencodeurs creux (SAE) décomposent GPT-2 XL et Llama-3.1-8B en 16K-32K features interprétables par couche. Les features sémantiques seules récupèrent 94% de la performance d'encodage peak (r=0.285), et s'alignent avec l'organisation corticale sémantique connue (ρ=0.72, p<0.001). Les résultats généralisent sur l'anglais, le chinois et le français.

Papers GPT Llama

SIG

HYP

arXiv cs.AI·25 mai

ImProver 2: Iteratively Self-Improving LMs for Neurosymbolic Proof Optimization

ImProver 2 est un framework neurosymbolique pour optimiser automatiquement les preuves formelles en Lean 4. Un modèle 7B entraîné surpasse des modèles bien plus grands et rivalise avec les modèles frontière. Le scaffold expose la structure formelle et des abstractions informelles légères.

Raisonnement Fine-tuning Papers

SIG

HYP

arXiv cs.CL·25 mai

Model Collapse as Cultural Evolution

Étude montrant que l'effondrement de modèle (dégradation progressive des LLM entraînés sur leurs propres sorties) suit les lois de l'évolution culturelle. Tests sur LLaMA-2-7B et Mistral-7B sur 10 générations en anglais, allemand et turc révèlent que la compositionnalité suit une trajectoire non-monotone (hausse puis baisse). Le filtrage basé sur les tâches, pas aléatoire, maintient la qualité.

Llama Mistral Papers

SIG

HYP

arXiv cs.AI·25 mai

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

IDS (Inductive Deductive Synthesis) est un système multi-agent LLM qui synthétise conjointement implémentation et preuve formelle pour les systèmes distribués. Sur 7 spécifications de key-value stores, IDS atteint 7/7 en 6.8h/$106, contre 2/7 pour GPT-5.4 et Claude Opus 4.6. Résultat 200x plus rapide que l'effort expert, 17% moins cher que les agents SOTA.

Agents IA Multi-agents Génération de code

SIG

HYP

Reddit r/LocalLLaMA·24 mai

hipEngine: Fast Native Qwen 3.6 Inference for RDNA3 (Strix Halo, 7900 XTX)

hipEngine est un moteur d'inférence LLM open source (AGPLv3) optimisé pour RDNA3 (RX 7900 XTX, W7900). Écrit en Python avec kernels HIP/C++, il exécute Qwen 3.6 MoE plus vite que llama.cpp en prefill (2718 tok/s à 512 tokens vs 2436 pour GGUF Q4_K_S). Support INT8 KVCache quasi sans perte permet 256K contexte en <24GB.

Qwen Open source Infrastructure

SIG

HYP

Reddit r/LocalLLaMA·24 mai

BitCPM-CANN: Native 1.58-Bit Large Language Model Training on Ascend NPU

BitCPM-CANN présente une quantification ternaire (1.58-bit) native sur NPU Ascend. Quatre modèles (0.5B à 8B) conservent 95.7–97.2% des performances full-precision sur 11 benchmarks (raisonnement, GSM8K, BBH). Surcoût d'entraînement : 4.5%. Réduction mémoire : 8× poids, 6× end-to-end. Premier système 1.58-bit à 8B sur NPU domestique.

Fine-tuning Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·23 mai

Qwen3.6 35B-A3B MTP hits 249 t/s on a 24GB consumer GPU (RTX 5090M) — 3.4× the dense 27B variant on the same image

Qwen3.6 35B-A3B MTP atteint 249 t/s sur RTX 5090M (24GB), 3.4× plus rapide que la variante dense 27B. Le modèle MoE (128 experts, ~3B params actifs par token) combiné à MTP (86.6% d'acceptation draft) explique le gain. Contexte jusqu'à 262K tokens sans dégradation significative.

Qwen Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·22 mai

BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.

BeeLlama v0.2.0 améliore significativement les performances avec DFlash. Sur RTX 3090 : Qwen 3.6 27B atteint 164 tps (4.40x speedup), Gemma 4 31B 177.8 tps (4.93x). Support complet Gemma 4 31B, réduction overhead DFlash, meilleure gestion prefill et validation draft/target.

Qwen Open source Génération de code

SIG

HYP

Reddit r/MachineLearning·22 mai

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

Numind publie NuExtract3, un VLM open-weight de 4B paramètres basé sur Qwen3.5-4B sous licence Apache-2.0. Le modèle extrait des données structurées de documents complexes (PDFs, formulaires, tableaux, factures) en Markdown ou JSON. Entraîné 3 jours sur 8xH100, il supporte plusieurs quantizations (GPTQ, W8A8, FP8, Q4, Q6) et fonctionne avec 4GB VRAM minimum.

Vision Open source Génération de code

SIG

HYP

arXiv cs.LG·22 mai

Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction

Les détecteurs de texte IA amplifient un axe de typicalité préexistant plutôt que de construire une frontière IA-vs-humain. Sur RoBERTa-base, la projection brute sur centroid(AI)-centroid(HC3) atteint AUROC 0.806-0.944, égalant ou surpassant le fine-tuning. Un prédicteur Jacobien en forme fermée transfère à 16/16 détecteurs tiers avec équivalence oracle, réduisant FPR de 57% sur le détecteur OpenAI.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.LG·22 mai

Teaching Language Models to Forecast Research Success Through Comparative Idea Evaluation

Des chercheurs entraînent des modèles de langage à prédire le succès empirique d'idées de recherche avant expérimentation. Sur 11 488 paires d'idées issues de PapersWithCode, un modèle 8B atteint 77,1% de précision via SFT, surpassant GPT-5 (61,1%). L'approche RLVR génère des justifications interprétables avec 71,35% d'exactitude.

Raisonnement Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.LG·22 mai

AgForce Enables Antigen-conditioned Generative Antibody Design

AgForce, une architecture encoder-decoder avec GNN, résout trois défaillances des méthodes de design d'anticorps : cécité antigénique, effondrement du vocabulaire, et incapacité à générer des séquences spécifiques à l'antigène. Utilise dropout du framework, gated bottlenecks, attention hyperbolic, et Mixture Density Network. Améliore la récupération d'acides aminés de 8% sur CHIMERA-Bench.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.LG·21 mai

Chronicle: A Multimodal Foundation Model for Joint Language and Time Series Understanding

Chronicle est un modèle fondation multimodal de 324M paramètres entraîné de zéro sur le langage naturel et les séries temporelles dans une architecture unifiée. Le modèle partage les mêmes blocs transformer et mécanismes d'attention pour les deux modalités. Il égale Gemma-3-270M sur 19 tâches NLU, établit un nouveau record sur 24 datasets UCR/UEA et surpasse les baselines supervisées sur Time-MMD.

Benchmarks Papers Raisonnement

SIG

HYP

arXiv cs.CL·21 mai

Beyond Semantic Similarity: A Two-Phase Non-Parametric Retrieval Workflow for Corporate Credit Underwriting

Système RAG deux phases pour l'analyse de crédit corporate : phase 1 combine recherche lexicale et dense multilingue ; phase 2 applique contrôleur adaptatif et scoring LLM-as-Judge basé sur l'utilité analytique plutôt que similarité sémantique. Déploiement on-premise sur corpus multilingue propriétaire. En production : temps d'analyse réduit de plusieurs heures à 3 minutes pour 800+ analystes.

RAG Recherche vectorielle Embeddings

SIG

HYP

arXiv cs.CL·21 mai

Self-Training Doesn't Flatten Language -- It Restructures It: Surface Markers Amplify While Deep Syntax Dies

Étude sur 11 générations d'auto-entraînement sur 5 modèles (GPT-2, Pythia, OPT). Contrairement à l'idée d'un « aplatissement » uniforme, le langage se restructure : les marqueurs de surface (connecteurs, tirets) augmentent tandis que les structures syntaxiques profondes (questions, passives, subjonctifs) s'effondrent. L'hypothèse de profondeur structurelle prédit ce déclin (ρ=0.540, p<10⁻⁶).

Papers Benchmarks GPT

SIG

HYP

arXiv cs.LG·21 mai

Introspective X Training: Feedback Conditioning Improves Scaling Across all LLM Training Stages

Introspective Training (IXT) utilise un modèle de récompense pour annoter les données avec du feedback en langage naturel dès le pré-entraînement. Sur des LLM 7.5-12B entraînés jusqu'à 18T tokens, la méthode améliore l'efficacité computationnelle de 2.8x et atteint des performances inarrivables en mathématiques et code.

Reinforcement learning Raisonnement Génération de code

SIG

HYP

Reddit r/MachineLearning·20 mai

CANTANTE: Optimizing Agentic Systems via Contrastive Credit Attribution [R]

CANTANTE résout le problème d'attribution de crédit dans les systèmes multi-agents LLM en décomposant les récompenses globales en signaux d'optimisation par agent. Évalué sur MBPP, GSM8K et HotpotQA, l'approche surpasse GEPA et MIPROv2 (+18.9 pts MBPP, +12.5 pts GSM8K) sans surcoût d'inférence.

Multi-agents Prompt engineering Reinforcement learning

SIG

HYP

arXiv cs.LG·20 mai

In-Context Learning Operates as Concept Subspace Learning

Étude mécanistique de l'apprentissage en contexte (ICL) montrant que les démonstrations structurées induisent une inférence de concepts dans un sous-espace de faible dimension. Sur Llama-3-8B, un sous-espace de 68–73 dimensions sur 4096 restaure 78,8% de la performance, tandis que le sous-espace complémentaire n'a aucun effet. Résultats confirmés sur Qwen2.5-7B et tâches multilingues.

Raisonnement Llama Qwen

SIG

HYP

arXiv cs.AI·20 mai

PRISM: A Benchmark for Programmatic Spatial-Temporal Reasoning

PRISM est un benchmark de 10 372 paires instruction-code pour l'évaluation de la génération vidéo programmatique par LLM. Il propose 4 métriques : fiabilité du code, cohérence spatiale, complexité visuelle et densité temporelle. L'évaluation de 7 LLM révèle un écart d'exécution-spatial de 41% : le code exécutable ne garantit pas une sortie visuellement cohérente.

Benchmarks Génération de code Génération de vidéos

SIG

HYP

arXiv cs.AI·20 mai

Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints

Algorithme IC-Q pour l'apprentissage décentralisé de workflows multi-agents avec contraintes d'interface. Chaque agent observe seulement une fonction locale de l'artefact partagé et son état privé, sans accès centralisé aux trajectoires jointes. Garantie de convergence en nombre fini d'échantillons pour Q-learning neuronal avec observabilité partielle décentralisée.

Multi-agents Reinforcement learning Agents IA

SIG

HYP

arXiv cs.AI·20 mai

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

DecisionBench est un benchmark pour évaluer la délégation émergente dans les workflows multi-agents long-horizon. Le substrate inclut 11 modèles (7 familles), des tâches GAIA/tau-bench/BFCL, et des métriques multi-axes (qualité, coût, latence, fidélité de routage). Les résultats montrent que la qualité seule masque les signaux d'orchestration, et que le canal de livraison domine le contenu des descriptions.

Agents IA Multi-agents Benchmarks

SIG

HYP

arXiv cs.LG·20 mai

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI est un routeur de cascade LLM qui utilise la calibration d'incertitude pour réduire les coûts d'inférence. Via régression isotonique, il mappe l'incertitude au niveau des tokens à une probabilité d'erreur par requête, puis sélectionne le seuil d'escalade par minimisation de coût. Sur 75 000 requêtes NER avec modèles 4B/12B, UCCI réduit les coûts de 31% tout en diminuant l'erreur de calibration de 0.12 à 0.03.

Agents IA Évaluations Infrastructure

SIG

HYP

arXiv cs.CL·20 mai

ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking

ReacTOD combine neuro-symbolique et ReAct pour le dialogue orienté tâche. Une boucle ReAct bornée avec validation symbolique corrige itérativement les erreurs de dialogue (taux 93.1%), éliminant hallucinations et erreurs de format. Sur MultiWOZ 2.1 : gpt-oss-20B atteint 52.71% JGA (+14pp), Qwen3-8B 47.34%. Sur SGD : Claude-Opus 80.68%, Qwen3-32B 64.09%.

Agents IA Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·20 mai

Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling

Étude de 63 modèles de base montrant une transition de phase cachée : sous ~3.5B paramètres, raisonnement et véracité s'anticorrèlent ; au-delà, ils coopèrent. Architecture, données et recette d'entraînement décalent indépendamment ce seuil critique. Normalisation de largeur élimine l'anticorrélation ; modèles frontière atteignent r=+0.72. Outil open-source et dashboard diagnostique publiés.

Benchmarks Alignement Raisonnement

SIG

HYP

arXiv cs.LG·20 mai

DynaTrain: Fast Online Parallelism Switching for Elastic LLM Training

DynaTrain est un système d'entraînement distribué permettant la reconfiguration en ligne du parallélisme multi-dimensionnel en moins d'une seconde. Via une abstraction Virtual Parameter Space, il reconfigure un modèle dense de 70B en 2s et un MoE de 235B en 4.36s, surpassant les systèmes élastiques existants de trois ordres de magnitude.

Infrastructure Reinforcement learning Papers

SIG

HYP

Reddit r/LocalLLaMA·19 mai

Nemotron-Labs-Diffusion from NVIDIA

NVIDIA publie Nemotron-Labs-Diffusion, modèle tri-mode (AR, diffusion, auto-spéculation) en 3B/8B/14B. Self-speculation combine diffusion pour le drafting et AR pour la vérification avec KV cache partagé : 3× meilleure longueur d'acceptation vs Qwen3-8B-Eagle3, 2.2× speedup, 4× speedup sur GB200 (1015 tok/sec avec kernels CUDA).

Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·19 mai

Tongyi DeepResearch Technical Report

Tongyi DeepResearch est un modèle LLM agentic de 30.5B paramètres (3.3B activés par token) conçu pour la recherche autonome longue durée. Entraîné via mid-training et post-training agentic avec synthèse de données automatique, il atteint SOTA sur Humanity's Last Exam, BrowseComp, WebWalkerQA et autres benchmarks. Le modèle, framework et solutions sont open-sourcés.

Agents IA Raisonnement Benchmarks

SIG

HYP