Page 21 sur 138

ToutHaut signalRécent
5509 articles
arXiv cs.CL·

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

SPOT (Surgical Post-Training) est un framework de distillation on-policy qui injecte des capacités de raisonnement dans les LLM tout en préservant les connaissances antérieures. Avec 4k paires mathématiques rectifiées, il améliore Qwen3-8B de 6,2% en moyenne en 16 minutes sur 8x H800, en utilisant une formulation de récompense contrainte par KL et une pipeline de correction d'erreurs minimales.

Reinforcement learningRaisonnementFine-tuning
SIG
78
HYP
25
arXiv cs.CL·

CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

CounterRefine ajoute une couche légère de correction pour RAG : après une première réponse, le système émet des requêtes conditionnées par la réponse pour récupérer des contre-preuves, puis applique une étape KEEP/REVISE validée déterministiquement. Sur SimpleQA, amélioration de 5,8 points de taux correct ; 5,6% des sorties modifiées avec 180 changements bénéfiques vs 8 nuisibles.

RAGRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level

Étude comparative de l'interprétabilité des architectures Mixture-of-Experts (MoE) vs réseaux denses. Les experts MoE montrent moins de polysémantique neuronale que les FFN denses, particulièrement avec routage sparse. Les experts fonctionnent comme spécialistes de tâches linguistiques fines (ex: fermeture de crochets LaTeX), pas comme spécialistes de domaines larges. Code disponible.

SIG
78
HYP
15
arXiv cs.CL·

STEM: Structure-Tracing Evidence Mining for Knowledge Graphs-Driven Retrieval-Augmented Generation

STEM propose un framework pour le Knowledge Graph-based Question Answering (KGQA) qui reframe le raisonnement multi-hop comme une tâche de recherche de graphe guidée par schéma. Utilise une pipeline Semantic-to-Structural Projection et un Triple-Dependent GNN pour générer un Global Guidance Subgraph. Atteint SOTA sur plusieurs benchmarks multi-hop.

RAGRaisonnementBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

Fine-tuning vs. In-context Learning in Large Language Models: A Formal Language Learning Perspective

Étude comparative fine-tuning vs. in-context learning sur LLMs via tâches de langages formels. Fine-tuning surpasse ICL en généralisation in-distribution, mais les deux modes égalisent hors-distribution. Les biais inductifs divergent aux niveaux de maîtrise élevés. ICL montre sensibilité au vocabulaire et à la taille du modèle.

Fine-tuningPrompt engineeringBenchmarks
SIG
78
HYP
15
arXiv cs.AI·

Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback

Méthodologie d'évaluation comportementale pour systèmes IA agentiques : scoring des décisions intermédiaires via juges LLM sur 6 dimensions (détection de régime, routage, adaptation, calibrage du risque, cohérence stratégique, récupération d'erreur). Score comportemental corrèle à rho=0.72 avec Sharpe ratio. Boucle fermée avec renforcement (SAC) réduit MAPE de 0.61% à 0.54% sur test 2017-2025.

Agents IAReinforcement learningÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Beyond LoRA vs. Full Fine-Tuning: Gradient-Guided Optimizer Routing for LLM Adaptation

Nouvelle méthode MoLF (Mixture of LoRA and Full) pour l'adaptation de LLM qui route dynamiquement les gradients entre fine-tuning complet et LoRA au niveau de l'optimiseur. Testée sur Gemma-3-1B, Qwen2.5-1.5B/3B sur tâches SQL, Medical QA et connaissance contrefactuelle. MoLF-Efficient surpasse les approches LoRA adaptatives de 20% (Fact) et 9% (Med/SQL). Code open-source disponible.

Fine-tuningBenchmarksOpen source
SIG
78
HYP
25
arXiv cs.AI·

MULTITEXTEDIT: Benchmarking Cross-Lingual Degradation in Text-in-Image Editing

MULTITEXTEDIT est un benchmark de 3 600 instances couvrant 12 langues typologiquement diverses pour évaluer l'édition de texte dans les images. Les auteurs introduisent une métrique de fidélité linguistique (LSF) détectant les erreurs au niveau des scripts (diacritiques manquants, ordre RTL inversé). L'évaluation de 12 systèmes révèle une dégradation cross-linguale prononcée, particulièrement sur l'hébreu et l'arabe.

BenchmarksVisionÉvaluations
SIG
78
HYP
15
arXiv cs.AI·

Transformers Can Implement Preconditioned Richardson Iteration for In-Context Gaussian Kernel Regression

Les transformers avec attention softmax peuvent implémenter l'itération de Richardson préconditionné pour la régression par noyau gaussien en contexte. Les auteurs construisent un transformer monocouche avec O(log(1/ε)) blocs atteignant une précision ε sur des prompts de longueur N, où l'attention softmax produit un opérateur de noyau gaussien et les couches MLP-ReLU effectuent l'arithmétique scalaire locale.

RaisonnementPapersBenchmarks
SIG
78
HYP
15
arXiv cs.CL·

E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

E-PMQ propose une méthode de quantization post-fusion pour déployer efficacement des modèles fusionnés multi-experts en basse précision. En utilisant les poids des experts sources comme guides lors de la calibration par couche et l'ancrage des poids fusionnés, E-PMQ améliore la quantization 4-bit GPTQ de 65,0% à 73,6% sur CLIP-ViT-B/32 (8 tâches) et de 34,8% à 76,7% sur CLIP-ViT-L/14 (20 tâches).

Fine-tuningBenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

RTPurbo transforme les LLMs en modèles sparse en ~100 étapes d'entraînement. L'approche exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection top-p dynamique surpasse top-k fixe. Résultats : 9.36× speedup prefill à 1M tokens, 2.01× speedup decode, précision préservée.

RaisonnementBenchmarksInfrastructure
SIG
78
HYP
25
arXiv cs.CL·

Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

ConsumerSimBench, benchmark construit sur 1 553 sujets de réseaux sociaux chinois et 23 122 critères de réaction, évalue si les LLMs peuvent reconstruire les patterns de réaction réels des consommateurs. Gemini-3.1-Pro atteint seulement 47,8% de couverture des critères, révélant un écart majeur entre performance technique et intuition consommateur ancrée socialement.

BenchmarksÉvaluationsGPT
SIG
78
HYP
25
arXiv cs.LG·

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Optimisation systématique de modèles de diffusion en temps réel sur Apple M3 Ultra (GPU 60-cœurs, 512 GB mémoire unifiée). Combinaison de CoreML, quantization, Token Merging, distillation (SDXS-512) et pipeline caméra 3-threads atteint 22.7 FPS à 512×512. Révèle que les optimisations CUDA ne s'appliquent pas à l'architecture mémoire unifiée d'Apple Silicon.

Génération d'imagesBenchmarksInfrastructure
SIG
78
HYP
15
arXiv cs.CL·

Learning Transferable Topology Priors for Multi-Agent LLM Collaboration Across Domains

TopoPrior apprend des structures de collaboration réutilisables pour systèmes multi-agents LLM. Via un framework graphique variationnel conditionnel, il capture les régularités structurelles entre domaines hors ligne, réduisant le coût de recherche en ligne et la consommation de tokens à l'inférence tout en restant compatible avec les backbones existants.

Multi-agentsAgents IARaisonnement
SIG
78
HYP
22
arXiv cs.CL·

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Étude révélant une asymétrie de visibilité des datasets multilingues : 118 langues (59% des 200 plus parlées) ont zéro dataset catalogué selon LRE Map et LDC. Via citation-mining assisté par LLM sur Semantic Scholar, les auteurs identifient 609 datasets uniques dans 53 langues peu visibles, dont 356 accessibles. La rareté multilingue est un problème de documentation et discoverabilité, pas seulement de production.

BenchmarksOpen source
SIG
78
HYP
15
arXiv cs.CL·

Temporal Decay of Co-Citation Predictability: A 20-Year Statute Retrieval Benchmark from 396M Ukrainian Court Citations

UA-StatuteRetrieval : benchmark de 20 ans sur 396M citations judiciaires ukrainiennes. La prédictibilité co-citation décline de 33-47% (Adamic-Adar MRR 0.43→0.29). Dégradation non-uniforme : droit criminel stable (~0.40), droit civil s'effondre (0.35→0.15) après réforme 2017. Articles mid-frequency (1K-10K citations) perdent 50% prédictibilité. E5-large détecte 4.3% dérive sémantique.

BenchmarksEmbeddingsRAG
SIG
78
HYP
15
arXiv cs.CL·

Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

PUMA détecte la redondance sémantique dans les chaînes de pensée pour arrêter l'inférence des modèles de raisonnement avant qu'ils ne gaspillent des tokens. Le framework combine un détecteur de redondance léger avec une vérification au niveau de la réponse, réduisant les tokens de 26,2% en moyenne sur 5 benchmarks tout en préservant la précision et la cohérence du raisonnement.

RaisonnementGénération de codeBenchmarks
SIG
78
HYP
25
arXiv cs.CL·

BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

BacktestBench est le premier benchmark large-scale pour le backtesting quantitatif automatisé, contenant 18 246 paires question-réponse annotées sur 6 millions de données de marché réelles. AutoBacktest, un système multi-agent, traduit les stratégies en langage naturel en backtests reproductibles via un Summarizer, un Retriever SQL et un Coder Python. Évaluation sur 23 LLMs mainstream.

BenchmarksMulti-agentsGénération de code
SIG
78
HYP
25
arXiv cs.AI·

TailedTS: Benchmark Dataset for Heavy-Tailed Time Series Prediction and Periodicity Quantification

TailedTS est un benchmark de 24,69 milliards de points de données issu des vues Wikipedia 2024, conçu pour tester les modèles de prévision de séries temporelles sous conditions heavy-tailed et non-gaussiennes. Le dataset révèle que 5% des pages génèrent 70% du trafic, et introduit un cadre de quantification de périodicité montrant que les pages très consultées ont une structure périodique plus faible.

BenchmarksPapers
SIG
78
HYP
15
arXiv cs.CL·

EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective

EvoMemBench est un benchmark unifié évaluant la mémoire des agents LLM selon deux axes : portée (in-episode vs cross-episode) et contenu (knowledge vs execution-oriented). Comparaison de 15 méthodes mémoire : les baselines long-context restent compétitives, les méthodes retrieval-based dominent pour les tâches knowledge-intensive, les méthodes procédurales pour l'execution-oriented.

Agents IABenchmarksRAG
SIG
78
HYP
22
arXiv cs.CL·

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

LongMINT est un benchmark évaluant la capacité des agents à gérer la mémoire dans des contextes longs (jusqu'à 1,8M tokens) avec interférences multiples. 15.6k paires QA sur 4 domaines (suivi d'état, dialogue, révisions Wikipedia, commits GitHub). 7 systèmes testés (LLMs long-context, RAG, agents) obtiennent 27,9% de précision moyenne, limités par la récupération et la construction mémoire.

Agents IABenchmarksRAG
SIG
78
HYP
15
arXiv cs.CL·

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

EnvFactory automatise la création d'environnements exécutables et la synthèse de trajectoires multi-tours pour l'entraînement d'agents RL. Avec 85 environnements vérifiés sur 7 domaines, le framework génère 2 575 trajectoires SFT/RL et améliore les modèles Qwen3 de +15% sur BFCLv3, +8.6% sur MCP-Atlas et +6% sur conversational benchmarks.

Agents IAReinforcement learningGénération de code
SIG
78
HYP
25
arXiv cs.CL·

Proof-Carrying Certificates for LLM Pipelines: A Trust-Boundary Architecture

Framework de vérification formelle pour pipelines LLM via certificats Lean 4. Trois familles de certificats (bilattice, sensibilité embedding, Hoare-style) + deux opérateurs (Maximal Certifiable Residue, Compositional Stability) pour déploiements critiques (finance régulée, support clinique, agents). Artefact compilé couvre 22 types de certificats, 17/46 déclarations sans axiomes.

RaisonnementSécurité IAAgents IA
SIG
78
HYP
15
arXiv cs.CL·

Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex

MINE (Mechanistically Interpretable Neural Encoding) applique les outils d'interprétabilité mécanique aux réseaux de neurones pour identifier les caractéristiques visuelles qui activent chaque voxel du cortex visuel humain. Validation par génération d'images et édition contrefactuelle : insérer/retirer les features prédites modifie l'activation neuronale comme prévu.

VisionPapers
SIG
78
HYP
15
arXiv cs.CL·

Scale Determines Whether Language Models Organize Representation Geometry for Prediction

Étude sur l'organisation géométrique des représentations dans les modèles de langage selon leur échelle. Subspace PGA mesure l'alignement de la géométrie intermédiaire avec la matrice d'unembedding. Modèles petits (≤1024) perdent progressivement cette organisation aux couches tardives, tandis que grands modèles (≥2048) la préservent. L'échelle détermine comment la géométrie s'organise pour la prédiction.

PapersRaisonnementÉvaluations
SIG
78
HYP
15
arXiv cs.CL·

HEED: Density-Weighted Residual Alignment for Hybrid Vision-Language Model Distillation

HEED propose une méthode d'alignement résiduel pondéré par densité pour distiller des modèles vision-langage (ex. Qwen3-VL-8B) en architectures hybrides Mamba-2/attention. La technique cible les patches haute-densité (texte, détails fins) qui subissent 3.6× plus de dérive résiduelle. Résultats : +8.7 points OCRBench v2, +5.13 points en moyenne, 4.12× throughput, 68% économie mémoire.

VisionFine-tuningBenchmarks
SIG
78
HYP
15