Topic

#Fine-tuning

Le fine-tuning consiste à réentraîner un modèle d'IA pré-entraîné sur un jeu de données spécifique pour l'adapter à une tâche précise. Par exemple, Meta a fine-tuné Llama pour produire des variantes spécialisées comme Llama-chat.

40Articles

5Sources

72Signal moyen

arXiv cs.CL·18 juin

Towards Scalable Customization and Deployment of Multi-Agent Systems for Enterprise Applications

Framework pour la customisation et le déploiement efficace de systèmes multi-agents LLM en entreprise. Combine préentraînement continu, fine-tuning supervisé et optimisation de préférences pour adapter des modèles compacts à des domaines spécialisés. Intègre décodage spéculatif et quantification FP8 pour réduire latence et coûts. Atteint 4.48x d'accélération de débit tout en maintenant la performance.

Multi-agents Fine-tuning Business

SIG

HYP

arXiv cs.LG·18 juin

ASTRA: A Scalable Next-Generation ATCO Training Simulator with Autonomous Simpilots

ASTRA est un simulateur de formation pour contrôleurs aériens qui automatise les rôles de pilotes via une pipeline de reconnaissance vocale, interprétation et génération de réponses. Le système réduit le taux d'erreur de reconnaissance vocale de 107,80% à 23,45% sur l'accent singapourien, et évalue les communications radio avec scores de 91,7% (précision), 88,2% (brièveté), 86,9% (complétude).

Voix Fine-tuning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

Attribution-Guided and Coverage-Maximized Pruning for Structural MoE Compression

Méthode de compression structurelle pour modèles MoE (Mixture-of-Experts) via élagage au niveau des canaux. Utilise une approche d'attribution pour maximiser la couverture des scores de canaux. Tests sur DeepSeek et Qwen montrent 50% d'élagage structurel avec quantification 4-bit, réduction mémoire 5.27× sur Qwen3-30B-A3B.

DeepSeek Qwen Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

ProfiLLM est un pipeline LLM agentic déployé chez DiDi pour extraire des profils utilisateurs sémantiques à partir de logs comportementaux massifs. Le système utilise 27 outils analytiques pour miner les données et génère des profils alignés sur l'utilité prédictive, atteignant +6.14% d'amélioration AUC et +0.47% de GMV en test A/B.

Agents IA Llama RAG

SIG

HYP

arXiv cs.CL·18 juin

Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation

Activation steering améliore la génération de données synthétiques pour les langues peu dotées. Deux stratégies testées : Language Steering (identité linguistique) et Quality Steering (bien-formedness). Évaluation sur 4 LLMs open-source, 11 langues, tâches de classification. Steering sur couches précoces augmente la diversité et la performance aval.

Prompt engineering Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·18 juin

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

PragReST est un framework auto-supervisé qui améliore le raisonnement pragmatique des LLM via des traces de raisonnement contrefactuel. Sans données annotées humaines, il combine fine-tuning supervisé et apprentissage par renforcement. Sur 4 benchmarks (PragMega, Ludwig, MetoQA, AltPrag), il gagne +5.37% et +5.50% en absolu pour Qwen3-8B et Qwen3-14B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.CL·18 juin

Efficient Financial Language Understanding via Distillation with Synthetic Data

Framework de distillation avec données synthétiques pour l'analyse de sentiment financier. Transfert de connaissances d'un modèle teacher instruction-tuned vers des modèles compacts. Sélection de seeds par clustering pour générer des données synthétiques via few-shot prompting. Le modèle compact surpasse le teacher sur textes complexes/bruyants avec supervision minimale.

Fine-tuning RAG Prompt engineering

SIG

HYP

arXiv cs.LG·18 juin

CODEBLOCK: Learning to Supervise Code at the Right Granularity

CodeBlock est un framework de supervision sparse pour l'entraînement de LLMs de code. Il sélectionne des blocs de code syntaxiquement cohérents plutôt que des tokens isolés, en estimant leur utilité via cross-entropy généralisée et signaux de flux de données. Sur 6 benchmarks, CodeBlock surpasse la SFT full-token en utilisant seulement 1,9% des tokens supervisés.

Génération de code Fine-tuning Papers

SIG

HYP

arXiv cs.LG·18 juin

DRIFT: Refining Instruction Data via On-Policy Data Attribution

DRIFT affine la distribution des données d'entraînement SFT via des fonctions d'influence on-policy. La méthode utilise les rollouts du modèle comme cibles de validation pour minimiser l'écart de proximité et corriger le biais de norme de gradient. Tests sur modèles 7B montrent une amélioration du plafond de performance vs baselines.

Fine-tuning Reinforcement learning Évaluations

SIG

HYP

arXiv cs.LG·18 juin

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

L'étude montre que l'overtraining en SFT peut inverser le classement des modèles lors du fine-tuning RLVR. Sur Qwen2.5-Coder-3B, l'augmentation de la profondeur SFT élève pass@1 pré-RL mais réduit pass@10 GRPO de 0.806 à 0.481. L'entropie pré-RL corrèle positivement avec les résultats RLVR (ρ=+0.69). Un diagnostic deux étapes basé sur l'entropie peut identifier les checkpoints à risque.

Reinforcement learning Fine-tuning Raisonnement

SIG

HYP

arXiv cs.AI·18 juin

ARIADNE: Agnostic Routing for Inference-time Adapter DyNamic sElection

ARIADNE est un framework sans entraînement pour sélectionner dynamiquement des adaptateurs au moment de l'inférence. Il représente chaque adaptateur par des centroïdes calculés à partir des embeddings de son ensemble d'entraînement. Testé sur Llama 3.2 1B avec 23 tâches NLP, il récupère 97,44% des performances optimales et atteint 89,7% de précision sur 44 tâches.

Fine-tuning Llama Benchmarks

SIG

HYP

arXiv cs.AI·18 juin

User as Engram: Internalizing Per-User Memory as Local Parametric Edits

Nouvelle approche de personnalisation LLM : stocker les faits utilisateur comme édits locaux dans une table mémoire hashée (Engram) plutôt que via LoRA global. Réduit l'empreinte mémoire de 33 000x, améliore la précision du raisonnement indirect de 5,6x en moyenne, et permet de stacker plusieurs utilisateurs sans contamination croisée.

Fine-tuning Raisonnement Papers

SIG

HYP

Reddit r/MachineLearning·17 juin

Contrastive targeted SFT as a mechinterp method - has anyone mapped causal dependency interactions this way? [D]

Chercheur teste une approche itérative combinant SFT ciblée et interprétabilité mécanique sur un modèle 31B. Stratégie : entraînement contrastif sur des dimensions de capacité spécifiques, puis ablation des circuits pour cartographier les dépendances causales entre dimensions et optimiser l'ordre d'entraînement futur.

Fine-tuning Raisonnement Évaluations

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GLM-5.2 is a win for local AI

GLM-5.2 (744B) sous licence MIT représente une avancée pour l'IA locale malgré son empreinte massive. La communauté pourra distiller ses capacités de raisonnement dans des modèles 8B/70B, améliorant significativement les setups locaux.

Open source Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Self-Generated Error Training for Token Editing in Diffusion Language Models

Méthode d'entraînement pour améliorer l'édition de tokens dans les modèles de diffusion (LLaDA2.1). Résout le décalage entre l'entraînement sur corruptions aléatoires et l'inférence sur erreurs du modèle lui-même. Utilise une passe sans gradient suivie d'une supervision sur corruptions auto-générées via LoRA. Réduit l'intensité d'édition et les erreurs de transcription.

Génération de code Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

Are you speaking my languages? On spoken language adherence in multimodal LLMs

Les LLM pour la reconnaissance vocale multilingue confondent souvent la langue de sortie. Les auteurs proposent trois stratégies : prompting zéro-shot, fine-tuning supervisé et raisonnement Chain-of-Thought pour améliorer l'adhérence linguistique sans contraindre strictement la sortie ni perdre les capacités de code-switching.

Voix Prompt engineering Fine-tuning

SIG

HYP

arXiv cs.LG·17 juin

ProCUA-SFT Technical Report

ProCUA-SFT est un dataset de 3.1M échantillons SFT générés automatiquement à partir de 93K trajectoires synthétiques couvrant 2,484 combinaisons d'applications. Fine-tuner UI-TARS 7B sur ProCUA-SFT atteint 45.0% sur OSWorld, soit +18.7 points vs le modèle de base et +35% vs AgentNet. Le pipeline utilise Kimi-K2.5 comme générateur de tâches, juge et exécuteur.

Agents IA Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·17 juin

The Benchmark Illusion: Pruned LLMs Can Pass Multiple Choice but Fail to Answer

Les modèles élaguées passent les benchmarks à choix multiples mais échouent en génération ouverte. Étude multilingue montrant que sous élagage haute sparsité (Wanda), les réponses correctes sont démotées plutôt qu'effacées : elles réapparaissent avec beam search ou sampling. Les benchmarks à choix multiples surestiment l'utilisabilité des LLM compressés.

Benchmarks Évaluations Fine-tuning

SIG

HYP

arXiv cs.CL·17 juin

Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation

Étude sur le fine-tuning bilingue pour la reconnaissance vocale en langues peu dotées. Évaluation sur 9 paires linguistiques avec tokens d'identification de langue en entrée. Résultat : le fine-tuning bilingue améliore les performances quand l'identification de langue est précise ; fournir le token à l'inférence compense les erreurs d'identification.

Voix Fine-tuning Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

Learning task-specific subspaces via interventional post-training of speech foundation models

Méthode de post-entraînement pour les modèles de fondation vocale via apprentissage contrastif interventionnel. Transforme les représentations enchevêtrées en sous-espaces séparés (contenu/locuteur) en utilisant un dataset interventionnel et une perte contrastive multi-parties. Améliore la vérification de locuteur hors-domaine et la détection de mots-clés.

Voix Fine-tuning Papers

SIG

HYP

arXiv cs.CL·17 juin

Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue

Fine-tuning de Qwen3.5-27B pour prédire les scores PHQ-9 (dépression) directement à partir de transcriptions de conversations avec une application IA de santé mentale. 6 283 utilisateurs (3 111 labels + pseudolabels Claude Opus). Performance : MAE=2.6, RMSE=4.0, r=0.80, AUC=0.91 au seuil clinique PHQ-9≥10.

Fine-tuning Raisonnement Qwen

SIG

HYP

arXiv cs.LG·17 juin

The Critical Role of Model Selection in Causal Inference: A Comparative Analysis of Classification Models within the InferBERT Framework for Pharmacovigilance

InferBERT combine transformers et Do-calculus pour détecter les effets indésirables causaux en pharmacovigilance. Étude comparative sur AILF et TRAM : BioBERT surpasse XGBoost, ALBERT et Med-LLaMA. Conclusion : le pré-entraînement spécialisé (biomedical) prime sur la taille du modèle.

Benchmarks Fine-tuning Sécurité IA

SIG

HYP

arXiv cs.LG·17 juin

PowerOPD: Stabilizing On-Policy Distillation with Bounded Power Transformation

PowerOPD stabilise la distillation on-policy pour LLM en remplaçant la récompense log-ratio non-bornée par une transformation Box-Cox paramétrée. Sur 6 benchmarks de raisonnement mathématique avec Qwen3, gains de +6.37 Avg@8/+5.71 Pass@8 vs OPD vanilla, réduction de 59.2% du temps et 23.1% de mémoire GPU.

Fine-tuning Reinforcement learning Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

Revisiting LLM Adaptation for 3D CT Report Generation: A Study of Scaling and Diagnostic Priors

Étude d'adaptation d'LLM pour la génération de rapports CT 3D en imagerie médicale. RAD3D-Prefix, un framework léger basé sur des priors diagnostiques, intègre embeddings d'images et logits de classification multi-label. Sur LLMs de 96.1M à 1.6B paramètres, geler le modèle et entraîner uniquement des couches de projection surpasse le fine-tuning complet, réduisant l'hallucination clinique et l'overfitting.

Fine-tuning Vision

SIG

HYP

arXiv cs.LG·17 juin

Correct When Paired, Wrong When Split: Decoupling and Editing Modality-Specific Neurons in MLLMs

Les chercheurs identifient un problème critique dans l'édition de connaissances des MLLMs : les mises à jour fonctionnent avec des entrées multimodales (texte+image) mais échouent avec des entrées unimodales seules. Ils proposent DECODE, une méthode qui localise et découple les neurones spécifiques à chaque modalité pour propager les éditions de manière cohérente.

Fine-tuning Vision Évaluations

SIG

HYP

arXiv cs.LG·17 juin

Toward Controllable Catalyst Inverse Design via Large-Scale Autoregressive Pretraining

Modèle génératif basé sur GPT pour la conception inverse de catalyseurs hétérogènes. Préentraîné sur 133 millions de structures, affiné sur 460 000 structures optimisées. Atteint 98% de validité structurelle, 95% de validité d'optimisation, et améliore l'efficacité de criblage de 1,5 à 4 fois pour la découverte de catalyseurs ciblés.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.LG·17 juin

ReRAM-aware Model Finetuning addressing I-V Non-linearity and Retention Errors

Méthode de fine-tuning hardware-aware pour déployer des DNNs sur réseaux ReRAM. Utilise transformation sinh pour atténuer la non-linéarité I-V et intègre les erreurs de rétention dans une perte de régularisation. Résultats : ResNet18/DeiT-Tiny sans dégradation, MobileNetV3 <2% sur ImageNet, F-1 -1 point sur SQuAD v2.

Fine-tuning Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

When the Next Step Is Not One Step: Distribution-Aware Execution Modeling for Concurrent Go Programs

Modèle 7B fine-tuné pour prédire l'étape suivante dans des programmes Go concurrents en apprenant une distribution d'événements plutôt qu'une étiquette unique. Sur 798 prédictions issues de bugs réels (CockroachDB, Kubernetes, gRPC, etcd), atteint 36.2% de précision avec <1000 traces, surpassant Gemini 3.5 Flash zéro-shot (34.8%). Dataset, adapters et outils publiés.

Génération de code Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·17 juin

MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

MathVis-Fine propose un cadre pour améliorer le raisonnement mathématique multimodal en modélisant les dépendances visuelles fine-grained. Un nouveau dataset annote les images avec des ratings de dépendance visuelle. Un entraînement progressif en deux étapes équilibre les récompenses de correction et de grounding visuel selon la nécessité réelle de chaque échantillon.

Raisonnement Vision Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Get in here: Community model build thread

Un thread Reddit propose de créer un modèle communautaire via calcul distribué en utilisant une approche Mixture-of-Experts (MoE). La stratégie « Branch-Train-Stitch » distribue un modèle prototype dense à des participants qui l'entraînent indépendamment sur leur matériel, puis fusionnent les sous-modèles en MoE. Les décisions clés incluent la taille du prototype (2B ou 7B) selon la VRAM disponible.

Open source Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Qwen3.6 27B quants

Utilisateur teste Qwen3.6 27B en quantization extrême (IQ3 XXS turbo4) vs Q8 sur tâche de review de code. IQ3 XXS (5min, 1230pp/50tg) produit recommandations comparables à Q8 (1h56m, 306pp/3tg). Conclusion : quantization agressive suffisante pour coding si prompt/jugement solides.

Qwen Génération de code Fine-tuning

SIG

HYP

Reddit r/LocalLLaMA·16 juin

Be wary of Qwen/Claude distillations - they're often worse than the base model

Les distillations Qwen/Claude circulant sur r/LocalLLaMA (Qwopus, Fable 5 sur Qwen 3.6) utilisent 4k-10k samples d'entraînement, insuffisant pour améliorer les performances. Comparé aux 700k samples des distillations DeepSeek-R1 officielles, ces modèles ne dépassent pas le Qwen de base et dégradent légèrement la qualité malgré un style de raisonnement différent.

Qwen Claude Fine-tuning

SIG

HYP

arXiv cs.LG·16 juin

FastMix: Fast Data Mixture Optimization via Gradient Descent

FastMix automatise l'optimisation du mélange de données pour l'entraînement de modèles via descente de gradient. La méthode reformule la sélection de mélange comme un problème d'optimisation bilinéaire, optimisant conjointement les coefficients de mélange et les paramètres du modèle. Un seul modèle proxy suffit, réduisant drastiquement le coût de recherche comparé aux approches antérieures.

Fine-tuning Benchmarks Papers

SIG

HYP

arXiv cs.LG·16 juin

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

StarOR couple la recherche arborescente (MCTS) avec l'apprentissage par renforcement au moment de l'inférence pour la modélisation d'optimisation. Le système décompose le processus en quatre étapes, affine un adaptateur LoRA via GRPO à chaque nœud, et utilise un système de récompense multi-facettes sans labels. Résultats SOTA sur cinq benchmarks avec backbone 4B.

Raisonnement Reinforcement learning Fine-tuning

SIG

HYP

arXiv cs.AI·16 juin

ChatPlanner: A Large Language Model Framework for Personalized Public Transit Routing

ChatPlanner est un framework utilisant des LLMs fine-tunés avec RAG pour extraire les préférences utilisateur en langage naturel et les intégrer dans un algorithme d'optimisation de trajets en transport public. Évalué sur 8 personas et 5 contextes, le système combine fine-tuning (structure de sortie) et RAG (contexte spécifique) pour identifier des solutions ignorées par les planificateurs existants.

RAG Fine-tuning Prompt engineering

SIG

HYP

arXiv cs.CL·16 juin

Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA présente Nemotron 3 Ultra, un modèle MoE hybride Mamba-Transformer de 550B paramètres (55B actifs) pré-entraîné sur 20T tokens avec contexte 1M. Utilise SFT, RL et distillation multi-enseignants. Atteint ~6x le débit d'inférence des LLM publics avec précision équivalente. Checkpoints, données et recette open-sourcés sur HuggingFace.

Agents IA Raisonnement Open source

SIG

HYP

arXiv cs.CL·16 juin

Beyond Layer Importance in Layer-wise Sparsity: An Inter-Layer Perturbation-Absorption Perspective

Étude sur la redondance couche-par-couche dans les LLM. Les auteurs caractérisent comment les couches absorbent ou amplifient les perturbations lors de l'élagage : les couches précoces amplifient, les couches intermédiaires et tardives absorbent. Ils proposent une correction basée sur un coefficient d'absorption, améliorant OWL et AlphaPruning de 7,13% en perplexité et 1,02% en précision zéro-shot à 70% de sparsité.

Papers Benchmarks Fine-tuning

SIG

HYP

arXiv cs.CL·16 juin

Spokes: Optimizing for Diverse Pretraining Data Selection

SPOKES optimise la sélection de données de préentraînement via un cadre probabiliste basé sur le score G-Vendi et la descente de gradient exponentiée. Sur FineWeb et DCLM, la méthode améliore les performances en aval de +1.5 et +1.4 points en optimisant conjointement qualité et diversité, surpassant la déduplication sémantique.

Benchmarks Papers Fine-tuning

SIG

HYP

arXiv cs.CL·16 juin

CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

CHILLGuard est un système de sécurité dédié aux LLM chinois avec taxonomie fine-grained (5 macro, 31 micro catégories). Les auteurs construisent 405k échantillons d'entraînement via RAG et réécriture, puis 51k échantillons de test annotés. Le modèle atteint +15.92% F1 vs Qwen3Guard-8B-Strict via Direct Preference Optimization.

Sécurité IA Alignement Fine-tuning

SIG

HYP

arXiv cs.CL·16 juin

SHARD: Safe and Helpful Alignment via Self-Reframing Distillation

SHARD est une méthode de distillation par auto-reformulation pour améliorer l'équilibre sécurité-utilité des LLM. Elle réécrit les prompts sensibles selon des principes philosophiques, reformule les réponses de manière sûre et plus utile, puis fine-tune le modèle sur ces réponses auto-reformulées. Testée sur DNA et LINGUASAFE, SHARD améliore l'utilité tout en préservant la sécurité.

Fine-tuning Sécurité IA Alignement

SIG

HYP