Page 16 sur 192

ToutHaut signalRécent

7679 articles

Pruning Deep Neural Networks via the Marchenko--Pastur Distribution

Méthode de pruning de réseaux de neurones profonds basée sur la distribution de Marchenko–Pastur, avec fine-tuning minimal post-pruning. Sur ImageNet-1k, ViT-B/16 atteint 83.41% top-1 avec réduction MAC de 59.81% après 3 epochs de distillation; ResNet50 8:16 atteint 75.87% avec speedup 1.62× sur A40.

Benchmarks Papers Vision

SIG

HYP

arXiv cs.CL·3 juin

EURO-5K: When Does Domain Pretraining Matter? Benchmarking Transformers for EU Reporting Obligation Extraction

EURO-5K est un corpus de 5K phrases annotées pour l'extraction d'obligations de reporting dans la législation EU (136 actes législatifs). Comparaison de modèles BERT fine-tunés et LLMs (QLoRA) : BERT générique et juridique atteignent 0.89 F1 similaire ; le préentraînement juridique aide surtout en tuning efficace en paramètres. Convergence à 3K samples.

Benchmarks Fine-tuning Papers

SIG

HYP

arXiv cs.LG·3 juin

Are we really tilting? The mechanics of reward guidance in flow and diffusion models

Les algorithmes de reward guidance stérisent les processus génératifs vers des mesures favorables aux récompenses. L'étude montre que le reward hacking provient d'une approximation pratique : l'estimation plug-in à particules finies de la fonction h de Doob. Les auteurs proposent un calendrier d'amortissement fermé et valident sur cibles gaussiennes, damier 2D et FLUX.1.

Reinforcement learning Raisonnement Papers

SIG

HYP

arXiv cs.AI·3 juin

Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks

Étude de la « dette de passation » : le coût de redécouverte quand un agent de codage reprend une tâche interrompue. Sur 75 tâches et 724 exécutions, fournir des notes structurées réduit les événements médians de 20–59 % et les tokens de 42–63 % vs. état du dépôt seul. Les benchmarks d'agents doivent évaluer l'efficacité de reprise, pas seulement la résolution.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.CL·3 juin

AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making

Étude factorial sur 4 LLMs open-source évaluant des décisions cliniques en diabète type 2. Les LLMs utilisés comme évaluateurs donnent des scores 74–78 points en protocole sans rubrique vs 7.69–49.64 points avec rubrique ancrée. La rubrique amplifie la discrimination entre modèles (facteur 1.76–5.10) et révèle variations comportementales masquées sans rubrique.

Évaluations Benchmarks Sécurité IA

SIG

HYP

arXiv cs.CL·3 juin

Predicting Inference-Time Scaling Gains from Labeled Validation-Set Output Statistics

Méthode pour prédire les gains de scaling en inférence (best-of-N) sans exécuter la procédure complète. Ridge predictor identifie 3 features stables (accord inter-prompts, position du premier échantillon correct, variance de longueur) + entropie, atteignant ρ=0.90 de corrélation avec les gains réels sur familles de modèles et tâches math/reasoning.

Raisonnement Évaluations Reinforcement learning

SIG

HYP

arXiv cs.LG·3 juin

ReLoRA: Knowledge-Reusing Adaptation for Fast Rollout of Evolving LLM Services

ReLoRA est un framework de ré-adaptation efficace pour les services LLM en évolution continue. Il utilise l'optimisation bayésienne pour initialiser les adaptateurs LoRA de manière compatible avec les mises à jour du modèle de base, puis affine avec régularisation progressive. Résultats : réduction du temps de déploiement jusqu'à 8,9× et amélioration de précision jusqu'à 4,6%.

Fine-tuning Raisonnement Benchmarks

SIG

HYP

arXiv cs.CL·3 juin

MemTrain: Self-Supervised Context Memory Training

MemTrain propose un cadre d'entraînement auto-supervisé pour améliorer les capacités de mémoire contextuelle des agents LLM. Deux tâches proxy sur Wikipedia (reconstruction d'entités masquées et rappel de mémoire intermédiaire) sont optimisées conjointement avec GRPO. Gains jusqu'à 17,67 points sur QA long-texte et benchmarks de recherche.

Agents IA Reinforcement learning Papers

SIG

HYP

arXiv cs.AI·3 juin

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

AURA-Mem propose une mémoire récurrente de taille constante (4,224 bytes) pour les politiques robotiques, avec une porte apprise qui n'écrit en mémoire que si l'observation change l'action suivante. Sur LIBERO-Long avec OpenVLA-OFT 7B, elle égale la politique de base (0.233 de succès) tout en réduisant les écritures mémoire de 7× et la consommation VRAM de 6,061× vs KV-cache.

Robotique Agents IA Raisonnement

SIG

HYP

arXiv cs.AI·3 juin

Inducing Reasoning Primitives from Agent Traces

Méthode pour extraire des primitives de raisonnement à partir de traces d'agents ReAct. Les routines récurrentes sont regroupées et converties en pseudo-outils typés. Les bibliothèques induites surpassent l'agent source : +44pp sur RuleArena NBA, +30pp sur MuSR, +22pp sur NatPlan.

Agents IA Raisonnement Prompt engineering

SIG

HYP

arXiv cs.AI·3 juin

When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning

Étude sur 6000 paires tâche-condition montrant que le débat multi-agent dégrade la génération (-1.6 à -15.5pp) via confusion induite par critique, mais améliore la détection d'erreurs (+27.4pp F1). Une séparation adversariale avec vérification par code et génération contrôlée atteint +5.3pp sur tâches génératives.

Multi-agents Agents IA Évaluations

SIG

HYP

arXiv cs.CL·3 juin

Experience-Driven Dynamic Exits for LLMs with Reinforcement Learning

LEDE, un framework d'apprentissage par renforcement hors ligne, optimise l'inférence des LLM en sélectionnant dynamiquement la couche de sortie et la longueur de spéculation selon le contexte local. Sur Llama-2 et Llama-3, il atteint 2.0×–2.7× d'accélération vs décodage autorégressif, +17% vs baselines statiques.

Llama Reinforcement learning Génération de code

SIG

HYP

arXiv cs.CL·3 juin

The Deliberative Illusion: Diagnosing Factual Attrition and Stance Homogenization in Multi-Agent LLM Deliberation

Les systèmes multi-agents LLM perdent jusqu'à 72% des faits critiques lors de la délibération, créant une « illusion délibérative ». DelibTrace mesure cette attrition factuelle et l'homogénéisation des positions. Les agents convergent vers un consensus tout en oubliant les éléments essentiels pour interpréter le problème.

Multi-agents Agents IA Évaluations

SIG

HYP

arXiv cs.CL·3 juin

Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding

Regret Pre-training introduit un cadre d'apprentissage auto-supervisé basé sur LUPI, utilisant une architecture dual-view pour générer distributions Student (causale) et Teacher (future-conditionnée). Sur OLMoE-1B-7B après 4B tokens, GlobalRegret et LocalRegret atteignent 33.9% et 32.2% de précision moyenne vs 30.2% baseline, avec gain de 18.1pp sur BoolQ. Zéro paramètre supplémentaire.

Papers Raisonnement Fine-tuning

SIG

HYP

arXiv cs.CL·3 juin

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX est un benchmark multilingue à grande échelle pour la compréhension des expressions idiomatiques, contenant 190K+ exemples contextualisés couvrant 12K+ idiomes en anglais, arabe et français. Le dataset inclut des étiquettes d'usage idiomatique/littéral et des métadonnées linguistiques. Quatre tâches évaluent la détection, la récupération et l'interprétation d'idiomes.

Benchmarks

SIG

HYP

arXiv cs.LG·3 juin

RESCAST-100K: A Comprehensive Dataset for Cross-Domain Residential Load and Indoor Temperature Forecasting

RESCAST-100K est un benchmark de 100 000 foyers américains simulés (EnergyPlus/ResStock) pour évaluer la généralisation cross-domain en prévision de charge énergétique résidentielle et température intérieure. Dataset de séries temporelles 15-min avec 40+ covariables statiques, intégrant 5 datasets réels. Les modèles cross-attention et MLP-mixer surpassent les transformers classiques sous domain shift.

Benchmarks Fine-tuning Papers

SIG

HYP

arXiv cs.LG·3 juin

GRZO: Group-Relative Zeroth-Order Optimization for Large Language Model Fine-Tuning

GRZO est un optimiseur zeroth-order pour fine-tuner les LLM avec moins de mémoire. Il génère une perturbation par exemple du mini-batch et normalise les pertes par groupe, augmentant le nombre de directions de gradient du batch sans coût forward supplémentaire. Sur Llama3-8B, GRZO gagne +3.0 points vs MeZO avec 23% moins de mémoire GPU.

Fine-tuning Papers Benchmarks

SIG

HYP

arXiv cs.LG·3 juin

RRISE: Robust Radius Inference via a Surrogate Estimator

RRISE compresse la certification de robustesse par randomized smoothing en un seul forward pass via un surrogate appris, remplaçant jusqu'à 10⁴ évaluations Monte Carlo par requête. Calibration conforme garantit des rayons certifiés conservateurs. Sur CIFAR-100 et Tiny ImageNet, 1.23–1.91× meilleure précision certifiée que les méthodes offline antérieures.

Benchmarks Sécurité IA Évaluations

SIG

HYP

Simon Willison·2 juin

Microsoft's new MAI models

Microsoft annonce MAI-Thinking-1 (35B, raisonnement) et MAI-Code-1-Flash (5B, code). Le premier surpasse Claude Sonnet 4.6 en évaluation humaine aveugle. Les deux modèles sont entraînés sur données sous licence commerciale sans distillation tiers.

Génération de code Raisonnement Benchmarks

SIG

HYP

Reddit r/MachineLearning·2 juin

Backpropagation destroys V1 brain alignment in one epoch, tracking RSA alignment to fMRI across training for BP, FA, predictive coding, and STDP [R]

Étude comparative de règles d'apprentissage (backprop, feedback alignment, predictive coding, STDP) via alignement RSA avec fMRI V1 humain. Backprop détruit 90% de l'alignement V1 après 1 epoch (r: 0.102→0.011), tandis que PC et STDP ne perdent que 25-31%. À epoch 40: PC/STDP >> BP/FA. Suggère un trade-off fondamental entre signaux d'erreur globaux (couches hautes) et alignement précoce.

Alignement Benchmarks Papers

SIG

HYP

Reddit r/MachineLearning·2 juin

LLM agents patch security bugs, pass all tests, but still leave the vulnerability open [R]

CVE-Bench évalue 5 modèles frontier sur 20 CVEs réelles (Pillow, GitPython, urllib3, etc.) avec 300 runs. Taux de résolution max 50% (60% en advisory). Les agents corrigent syntaxiquement mais laissent la vulnérabilité ouverte. Écarts significatifs cross-family (OpenAI vs Laguna, p<0.05), bruit intra-famille. Analyse des défaillances : drift de recherche, hallucinations, manque de contextualisation.

Agents IA Benchmarks Sécurité IA

SIG

HYP

arXiv cs.LG·2 juin

Agentic Transformers Provably Learn to Search via Reinforcement Learning

Étude théorique montrant comment les transformers apprennent à implémenter une recherche en arbre (DFS) via RL. Un transformer à deux têtes d'attention émerge naturellement d'un entraînement par gradient de politique sur des arbres stochastiques, sans démonstrations expertes. Le modèle généralise à des profondeurs non vues et adapte sa stratégie selon les distributions d'objectifs.

Agents IA Reinforcement learning Raisonnement

SIG

HYP

arXiv cs.AI·2 juin

Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design

PROBE, un framework d'optimisation pour agents LLM en conception de médicaments, résout le conflit entre affinité de liaison et druggabilité. Via probing d'édits contrôlés et une site map spécifique à la poche, il guide une boucle multi-agent (affinité, druggabilité, co-optimisation) sur CrossDocked2020 avec résultats SOTA.

Agents IA Multi-agents Raisonnement

SIG

HYP

arXiv cs.LG·2 juin

Quantized Reasoning Models Think They Need to Think Longer, but They Do Not

La quantification post-entraînement (PTQ) réduit la précision des modèles de raisonnement et augmente la longueur des chaînes de pensée. 52% des erreurs proviennent de réponses correctes trouvées mais non finalisées. Une pénalité logit sans entraînement sur les marqueurs de surréflexion ("wait", "but") réduit la longueur de 12-23% tout en préservant la précision sur 5 modèles (1.5B-32B).

Raisonnement Fine-tuning Benchmarks

SIG

HYP

arXiv cs.AI·2 juin

From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging

Preference Delta Aggregation (PDA) agrège des signaux de préférence faibles issus de paires de modèles (ex: Qwen3 4B vs 1.7B) via fusion de LoRA. Geometric Alignment Merging (GAM) aligne les sous-espaces d'adaptateurs avant agrégation. Sur benchmarks de raisonnement et recherche agentique, PDA+GAM améliore Qwen3 8B de +6,8 et +7,3 points respectivement.

Qwen Fine-tuning Reinforcement learning

SIG

HYP

arXiv cs.LG·2 juin

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Étude de l'efficacité et l'efficience du tool-calling dans les agents LLM. Les auteurs montrent que les pipelines d'évaluation sont sensibles à des choix mineurs (seed, prompt système, templates multi-tours) affectant la fiabilité des classements. Ils identifient deux sources de gaspillage computationnel en RL et proposent deux techniques d'accélération sans dégradation de performance.

Agents IA Reinforcement learning Évaluations

SIG

HYP

arXiv cs.AI·2 juin

Robust Shielding for Safe Reinforcement Learning

Nouvelle approche de shielding pour agents RL garantissant la sécurité formelle dans les MDPs avec dynamiques de transition inconnues. Utilise des MDPs robustes (RMDPs) avec ensembles de probabilités de transition et formules LTL. Combine shielding avec apprentissage PAC pour construire des shields minimalement restrictifs tout en garantissant la sécurité.

Reinforcement learning Sécurité IA Raisonnement

SIG

HYP

arXiv cs.AI·2 juin

Capability Self-Assessment: Teaching LLMs to Know Their Limits

Les LLM modernes surestiment systématiquement leurs capacités et tentent de résoudre des requêtes impossibles. Des chercheurs proposent Capability Self-Assessment (CSA), formalisé comme un problème d'apprentissage par renforcement, pour enseigner aux modèles à reconnaître leurs limites. L'RL surpasse le fine-tuning supervisé, préserve les capacités originales et généralise hors-distribution.

Reinforcement learning Alignement Évaluations

SIG

HYP

arXiv cs.CL·2 juin

Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

UniKE, premier benchmark pour l'édition de connaissances cross-modal dans les modèles multimodaux unifiés (UMMs), révèle un écart critique : l'efficacité textuelle atteint 92% mais la précision VQA en génération d'images chute à 18,5%. Une méthode d'édition paramétrique augmentée par raisonnement améliore les résultats jusqu'à +18,6 points.

Benchmarks Vision Fine-tuning

SIG

HYP

arXiv cs.CL·2 juin

SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors

SALSA adapte les modèles de langage multimodaux à la parole via des vecteurs de direction appris par couche. La méthode optimise directement ces vecteurs sur enfants, multilingue et code-switching mandarin-anglais, gagnant jusqu'à 46,8% vs zéro-shot. Diriger l'encodeur (couches tardives) surpasse diriger le décodeur LLM.

Voix Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·2 juin

Which Institutional Frameworks Do Chatbots Assume? Auditing Jurisdictional Defaults in Multilingual LLMs

Audit de 7 LLMs (US/Chine) sur 2 520 réponses à 60 prompts juridiques en anglais et mandarin. Les modèles sélectionnent par défaut le cadre institutionnel de la langue d'entrée : 74,5% des réponses anglaises adoptent un framework US, 53,3% des réponses chinoises un framework chinois. Risque de mauvaise interprétation juridictionnelle quand la langue préférée diffère de la juridiction pertinente.

Benchmarks Sécurité IA Régulation

SIG

HYP

arXiv cs.CL·2 juin

Graph-Augmented Retrieval for Cross-Entity Financial Sentiment Analysis: A Comparative Study

Étude comparative d'une architecture Graph-RAG à deux sauts versus RAG vectoriel standard pour l'analyse de sentiment financier multi-entités. Sur 100 requêtes (30 directes, 70 relationnelles), Graph-RAG améliore le rappel d'entités (+6,4%, p<0,001) et la pertinence des réponses pour requêtes complexes (+11,7%), sans dégradation de qualité, avec latence augmentée de 22,6% mais variance réduite de 80%.

RAG Benchmarks Papers

SIG

HYP

arXiv cs.LG·2 juin

KG-Guard: Graph-Based Hallucination Detection for Knowledge Base Question Answering

KG-Guard détecte les hallucinations dans les systèmes de réponse à questions sur bases de connaissances (KBQA) en utilisant un graphe augmenté et un encodeur léger. Le modèle atteint F1 de 82.0–87.4 sur WebQSP/ComplexWebQuestions avec 305× moins de paramètres que les baselines, et améliore les performances KBQA de 13–14.5 points F1 en retour itératif.

Raisonnement Évaluations RAG

SIG

HYP

arXiv cs.LG·2 juin

FLaG: Fine-Grained Latent Grouping for Hallucination Detection

FLaG est un framework léger de détection d'hallucinations dans les LLM qui modélise la fiabilité via des groupes de preuves latentes. Utilisant un mécanisme de routage basé sur l'énergie et une agrégation log-marginale, il capture des patterns hétérogènes d'hallucinations sans modifier le modèle sous-jacent. Résultats SOTA sur plusieurs benchmarks avec transfert robuste entre datasets.

Sécurité IA Évaluations Raisonnement

SIG

HYP

arXiv cs.LG·2 juin

RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting

RAFT est une méthode de fine-tuning domaine en deux étapes qui réduit l'oubli catastrophique. Elle raffine les données via réécriture auto-conditionnée et fusion de réponses, puis applique une distillation on-policy où le modèle original fournit des cibles souples sur les trajectoires générées. Sur 5 domaines, RAFT améliore la précision domaine de 23,2% vs SFT standard et récupère 18,2% de dégradation sur MS-Bench.

Fine-tuning Reinforcement learning Papers

SIG

HYP

arXiv cs.LG·2 juin

BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding

BudgetDraft entraîne un drafter sparse pour la décodage spéculatif en contexte long (4K-16K tokens). La méthode expose le modèle à plusieurs budgets KV pendant l'entraînement et aligne chaque vue sparse avec une cible full-cache partagée. Résultats : 6.55x, 4.46x, 2.10x speedup vs décodage autorégressif à 4K, 8K, 16K tokens.

Raisonnement Benchmarks Infrastructure

SIG

HYP

arXiv cs.AI·2 juin

KACE: Knowledge-Adaptive Context Engineering for Mathematical Reasoning

KACE sépare stockage et utilisation du contexte pour le raisonnement mathématique. Un arbre épistémique stratifié par difficulté et domaine est construit hors ligne via boucle d'auto-réflexion. À l'évaluation, l'auto-cohérence hiérarchisée classe dynamiquement les problèmes et récupère sélectivement les cartes pertinentes. Sur AIME 2025 : 62,2% de précision (+10,4 points vs Best-of-5).

Raisonnement Prompt engineering Benchmarks

SIG

HYP

arXiv cs.AI·2 juin

Threshold-Based Exclusive Batching for LLM Inference

Article arXiv sur l'optimisation du batching pour l'inférence LLM. Les auteurs montrent que le mixed batching (MB) n'est pas toujours optimal : sur GPUs à bande passante limitée (RTX PRO 6000), le batching exclusif (EB) surpasse MB de 41,9% en débit. Ils proposent EB+, un scheduler hybride qui bascule dynamiquement entre EB et MB selon la bande passante GPU et la composition de la charge.

Infrastructure Benchmarks Papers

SIG

HYP

arXiv cs.AI·2 juin

TAPS: Target-Aware Prefix Tree Selection for Diffusion-Drafted Speculative Decoding

TAPS propose une méthode de sélection de préfixes consciente de la cible pour le décodage spéculatif avec diffusion. En convertissant les marginales de diffusion en estimations d'acceptation conditionnées au chemin, TAPS sélectionne un sous-arbre compact sous budget de vérification fixe. Résultats : 7.9x speedup sans perte vs décodage autorégressif vanilla, 1.36x et 1.74x vs DFlash et DDTree.

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·2 juin

SDR: Set-Distance Rewards for Radiology Report Generation

Nouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.

Reinforcement learning Vision Génération de code

SIG

HYP