Page 3 sur 136

ToutHaut signalRécent
5412 articles
arXiv cs.LG·

A Simple State Space Model Excels at Multivariate Time Series Classification

Étude systématique comparant les modèles d'espace d'état (SSM) pour la classification de séries temporelles. S4D surpasse les variantes Mamba en précision et efficacité. Les auteurs proposent MS4 et MS4N, versions légères de S4D avec projection linéaire et mélange de canaux. Évaluation sur 59 datasets (MONSTER, UEA) : MS4N égale des modèles 10× plus grands en paramètres.

BenchmarksPapersRaisonnement
SIG
82
HYP
15
arXiv cs.CL·

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Qwen3 améliore ses capacités de raisonnement via Self-Verified Distillation, un algorithme post-training sans données externes. Le modèle génère des solutions, les filtre par auto-vérification (cycle-consistency, factualité, correction), puis s'entraîne sur les données auto-curées. Gains : +16.7 points en math (AIME26/HMMT), +11.1 en science (GPQA), +8.3 en coding pour Qwen3-4B.

QwenFine-tuningRaisonnement
SIG
82
HYP
25
arXiv cs.AI·

ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

ScientistOne, un système autonome de recherche, introduit Chain-of-Evidence (CoE) pour tracer chaque affirmation à sa source. Évaluation sur 75 articles : les systèmes de base montrent 21% de références halluccinées, 42% de vérification de scores réussie. ScientistOne atteint 0 hallucination, vérification parfaite, et surpasse les experts humains sur 5 tâches.

Agents IARaisonnementÉvaluations
SIG
82
HYP
28
arXiv cs.LG·

InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization

InfoQuant propose une méthode de quantification post-entraînement (PTQ) sans entraînement pour les LLM. Elle utilise Peak Suppression Orthogonal Transformation (PSOT) pour transformer les activations en distributions plus faciles à quantifier. Sur LLaMA-2 13B en W4A4KV4, elle préserve 97% de la précision et réduit l'écart de performance de 42% par rapport à l'état de l'art.

LlamaPapersBenchmarks
SIG
82
HYP
15
arXiv cs.CL·

Hubness, Not Anisotropy, Drives Cross-Lingual Retrieval Asymmetry in Multilingual Embedding Models

Étude sur l'asymétrie de récupération cross-lingue dans 5 modèles multilingues (Gemini, Mistral, OpenAI, Qwen). Analyse de 6 518 expressions idiomatiques en anglais, bengali, hindi et arabe. Résultat : la « hubness » (concentration de vecteurs) est le principal facteur causal (49,5% de dominance), bien plus que l'anisotropie. La correction CSLS ferme 63,5% de l'écart de réciprocité.

EmbeddingsBenchmarksMulti-agents
SIG
82
HYP
15
arXiv cs.AI·

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

AgingBench, un benchmark de fiabilité longitudinale, évalue comment les agents IA déployés se dégradent au fil du temps. Étude sur 14 modèles et ~400 exécutions montrant que la fiabilité dépend de quatre mécanismes : compression, interférence, révision et maintenance. Les agents perdent précision factuelle même quand les tests comportementaux restent corrects.

Agents IAÉvaluationsBenchmarks
SIG
82
HYP
15
arXiv cs.LG·

ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

ChaosBench-Logic v2 est un benchmark de 40 886 questions évaluant le raisonnement logique de 14 LLM sur 165 systèmes dynamiques. Le protocole CARE révèle des défaillances critiques : le raisonnement sur les transitions de régime reste quasi-aléatoire (MCC=0.05), tandis que la déduction FOL atteint MCC=0.52. Qwen 2.5-32B surpasse les modèles propriétaires en diagnostics d'indicateurs.

BenchmarksRaisonnementQwen
SIG
82
HYP
15
arXiv cs.AI·

EvoCode-Bench: Evaluating Coding Agents in Multi-Turn Iterative Interactions

EvoCode-Bench évalue 13 agents de codage sur 26 tâches avec 5-15 tours itératifs. Les agents doivent maintenir un codebase fonctionnel face à des changements de spécifications. Résultat : écart de 22-40 points entre performance single-round (SR) et multi-tour (MT@4), avec succès <50% en multi-tour et dégradation progressive (taux de réussite divisé par 2 au tour 5).

Génération de codeAgents IABenchmarks
SIG
82
HYP
15
arXiv cs.LG·

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propose un cadre de découverte scientifique en boucle fermée couplant génération d'hypothèses, sélection d'expériences et raffinement de mécanismes. Évalué sur ActiveSciBench (57 tâches de cinétique enzymatique, 45 réseaux de régulation génique), le système atteint 67,6% de précision symbolique et 2-5x meilleure efficacité d'échantillonnage que les baselines.

RaisonnementAgents IABenchmarks
SIG
82
HYP
25
arXiv cs.CL·

CSP-Atlas: Concept-Specific Neural Circuits in a Sparse Python Transformer

Une étude identifie 106 circuits neuronaux dédiés dans un transformateur sparse 8-couches entraîné sur du code Python. Les circuits se structurent selon des principes computationnels (atomicité, ambiguïté lexicale) plutôt que sémantiques. 62,5% des neurones les plus actifs aux couches intermédiaires sont concept-spécifiques pour les construits AST.

Génération de codeRaisonnementPapers
SIG
82
HYP
15
arXiv cs.CL·

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

QUEST est une famille de modèles open-source (2B à 35B) entraînés comme agents de recherche profonde via une pipeline de synthèse de données et RL. Avec seulement 8K tâches synthétiques, QUEST égale ou surpasse les systèmes propriétaires sur 8 benchmarks de recherche, excelle en citation et synthèse de rapports. Code, données et modèles publiés.

Agents IAReinforcement learningOpen source
SIG
82
HYP
25
arXiv cs.LG·

FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning

FuRA propose une méthode de fine-tuning efficace en paramètres basée sur la décomposition SVD complète des matrices de poids. En gelant une base singulière préentraînée et optimisant uniquement les composantes compactes via factorisation tensor-train, FuRA surpasse le fine-tuning complet et LoRA sur LLaMA-3-8B (+1.37 en raisonnement) et VLMs, avec efficacité comparable à LoRA.

Fine-tuningLlamaReinforcement learning
SIG
82
HYP
18
arXiv cs.AI·

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

IDS (Inductive Deductive Synthesis) est un système multi-agent LLM qui synthétise conjointement implémentation et preuve formelle pour les systèmes distribués. Sur 7 spécifications de key-value stores, IDS atteint 7/7 en 6.8h/$106, contre 2/7 pour GPT-5.4 et Claude Opus 4.6. Résultat 200x plus rapide que l'effort expert, 17% moins cher que les agents SOTA.

Agents IAMulti-agentsGénération de code
SIG
82
HYP
28
Reddit r/LocalLLaMA·

BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.

BeeLlama v0.2.0 améliore significativement les performances avec DFlash. Sur RTX 3090 : Qwen 3.6 27B atteint 164 tps (4.40x speedup), Gemma 4 31B 177.8 tps (4.93x). Support complet Gemma 4 31B, réduction overhead DFlash, meilleure gestion prefill et validation draft/target.

QwenOpen sourceGénération de code
SIG
82
HYP
25
Reddit r/MachineLearning·

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

Numind publie NuExtract3, un VLM open-weight de 4B paramètres basé sur Qwen3.5-4B sous licence Apache-2.0. Le modèle extrait des données structurées de documents complexes (PDFs, formulaires, tableaux, factures) en Markdown ou JSON. Entraîné 3 jours sur 8xH100, il supporte plusieurs quantizations (GPTQ, W8A8, FP8, Q4, Q6) et fonctionne avec 4GB VRAM minimum.

VisionOpen sourceGénération de code
SIG
82
HYP
25
arXiv cs.LG·

Teaching Language Models to Forecast Research Success Through Comparative Idea Evaluation

Des chercheurs entraînent des modèles de langage à prédire le succès empirique d'idées de recherche avant expérimentation. Sur 11 488 paires d'idées issues de PapersWithCode, un modèle 8B atteint 77,1% de précision via SFT, surpassant GPT-5 (61,1%). L'approche RLVR génère des justifications interprétables avec 71,35% d'exactitude.

RaisonnementReinforcement learningBenchmarks
SIG
82
HYP
25
arXiv cs.LG·

Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction

Les détecteurs de texte IA amplifient un axe de typicalité préexistant plutôt que de construire une frontière IA-vs-humain. Sur RoBERTa-base, la projection brute sur centroid(AI)-centroid(HC3) atteint AUROC 0.806-0.944, égalant ou surpassant le fine-tuning. Un prédicteur Jacobien en forme fermée transfère à 16/16 détecteurs tiers avec équivalence oracle, réduisant FPR de 57% sur le détecteur OpenAI.

ÉvaluationsBenchmarksSécurité IA
SIG
82
HYP
15
arXiv cs.LG·

AgForce Enables Antigen-conditioned Generative Antibody Design

AgForce, une architecture encoder-decoder avec GNN, résout trois défaillances des méthodes de design d'anticorps : cécité antigénique, effondrement du vocabulaire, et incapacité à générer des séquences spécifiques à l'antigène. Utilise dropout du framework, gated bottlenecks, attention hyperbolic, et Mixture Density Network. Améliore la récupération d'acides aminés de 8% sur CHIMERA-Bench.

PapersBenchmarksGénération de code
SIG
82
HYP
15
arXiv cs.LG·

Chronicle: A Multimodal Foundation Model for Joint Language and Time Series Understanding

Chronicle est un modèle fondation multimodal de 324M paramètres entraîné de zéro sur le langage naturel et les séries temporelles dans une architecture unifiée. Le modèle partage les mêmes blocs transformer et mécanismes d'attention pour les deux modalités. Il égale Gemma-3-270M sur 19 tâches NLU, établit un nouveau record sur 24 datasets UCR/UEA et surpasse les baselines supervisées sur Time-MMD.

BenchmarksPapersRaisonnement
SIG
82
HYP
25
arXiv cs.CL·

Self-Training Doesn't Flatten Language -- It Restructures It: Surface Markers Amplify While Deep Syntax Dies

Étude sur 11 générations d'auto-entraînement sur 5 modèles (GPT-2, Pythia, OPT). Contrairement à l'idée d'un « aplatissement » uniforme, le langage se restructure : les marqueurs de surface (connecteurs, tirets) augmentent tandis que les structures syntaxiques profondes (questions, passives, subjonctifs) s'effondrent. L'hypothèse de profondeur structurelle prédit ce déclin (ρ=0.540, p<10⁻⁶).

PapersBenchmarksGPT
SIG
82
HYP
15
arXiv cs.CL·

Beyond Semantic Similarity: A Two-Phase Non-Parametric Retrieval Workflow for Corporate Credit Underwriting

Système RAG deux phases pour l'analyse de crédit corporate : phase 1 combine recherche lexicale et dense multilingue ; phase 2 applique contrôleur adaptatif et scoring LLM-as-Judge basé sur l'utilité analytique plutôt que similarité sémantique. Déploiement on-premise sur corpus multilingue propriétaire. En production : temps d'analyse réduit de plusieurs heures à 3 minutes pour 800+ analystes.

RAGRecherche vectorielleEmbeddings
SIG
82
HYP
15
arXiv cs.LG·

Introspective X Training: Feedback Conditioning Improves Scaling Across all LLM Training Stages

Introspective Training (IXT) utilise un modèle de récompense pour annoter les données avec du feedback en langage naturel dès le pré-entraînement. Sur des LLM 7.5-12B entraînés jusqu'à 18T tokens, la méthode améliore l'efficacité computationnelle de 2.8x et atteint des performances inarrivables en mathématiques et code.

Reinforcement learningRaisonnementGénération de code
SIG
82
HYP
25
arXiv cs.LG·

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI est un routeur de cascade LLM qui utilise la calibration d'incertitude pour réduire les coûts d'inférence. Via régression isotonique, il mappe l'incertitude au niveau des tokens à une probabilité d'erreur par requête, puis sélectionne le seuil d'escalade par minimisation de coût. Sur 75 000 requêtes NER avec modèles 4B/12B, UCCI réduit les coûts de 31% tout en diminuant l'erreur de calibration de 0.12 à 0.03.

Agents IAÉvaluationsInfrastructure
SIG
82
HYP
15