Topic

#Fine-tuning

Le fine-tuning consiste à réentraîner un modèle d'IA pré-entraîné sur un jeu de données spécifique pour l'adapter à une tâche précise. Par exemple, Meta a fine-tuné Llama pour produire des variantes spécialisées comme Llama-chat.

40Articles
6Sources
69Signal moyen
arXiv cs.CL·

Pretraining Language Models on Historical Text

TypewriterLM est un modèle de langage de 7.24B paramètres entraîné exclusivement sur du texte anglais antérieur à 1913. Les auteurs construisent TypewriterCorpus (54B tokens), un corpus historique nettoyé avec procédures anti-fuite, et introduisent lexically grounded instruction tuning pour ancrer les réponses dans des documents historiques. Trois datasets et un benchmark (History-Event) sont publiés.

PapersFine-tuningBenchmarks
SIG
78
HYP
00
arXiv cs.CL·

EURO-5K: When Does Domain Pretraining Matter? Benchmarking Transformers for EU Reporting Obligation Extraction

EURO-5K est un corpus de 5K phrases annotées pour l'extraction d'obligations de reporting dans la législation EU (136 actes législatifs). Comparaison de modèles BERT fine-tunés et LLMs (QLoRA) : BERT générique et juridique atteignent 0.89 F1 similaire ; le préentraînement juridique aide surtout en tuning efficace en paramètres. Convergence à 3K samples.

BenchmarksFine-tuningPapers
SIG
78
HYP
00
Reddit r/LocalLLaMA·

Building a free, offline LLM “tutor” grounded in one university textbook — RAG, LoRA, or both? Sanity check wanted

Un développeur cherche à construire un tuteur IA hors ligne gratuit basé sur un manuel universitaire. Architecture envisagée : RAG comme composant principal (chunking, embedding, retrieval avec citations page/section) + LoRA optionnelle pour le style pédagogique. Questions sur le choix du modèle (Qwen, Gemma), la gestion des structures complexes (figures, équations), et le packaging pour utilisateurs non-techniques.

RAGFine-tuningOpen source
SIG
35
HYP
00
arXiv cs.LG·

Quantized Reasoning Models Think They Need to Think Longer, but They Do Not

La quantification post-entraînement (PTQ) réduit la précision des modèles de raisonnement et augmente la longueur des chaînes de pensée. 52% des erreurs proviennent de réponses correctes trouvées mais non finalisées. Une pénalité logit sans entraînement sur les marqueurs de surréflexion ("wait", "but") réduit la longueur de 12-23% tout en préservant la précision sur 5 modèles (1.5B-32B).

RaisonnementFine-tuningBenchmarks
SIG
78
HYP
00
arXiv cs.CL·

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

CSRP, un framework en trois étapes pour la correction d'erreurs grammaticales chinoises, combine pré-entraînement continu (5.9M échantillons), fine-tuning avec Chain-of-Thought, et optimisation de politique avec récompenses conscientes de l'efficacité. Atteint 50.99 F₀.₅ sur NACGEC et surpasse GPT-4 en correction orthographique (59.61 F1).

Reinforcement learningRaisonnementFine-tuning
SIG
82
HYP
00
arXiv cs.CL·

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

DLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.

PapersFine-tuningRaisonnement
SIG
78
HYP
00
arXiv cs.CL·

Revisiting Parameter-Based Knowledge Editing in Large Language Models: Theoretical Limits and Empirical Evidence

Étude théorique et empirique des limites de l'édition de paramètres dans les LLM. Les auteurs démontrent via l'hypothèse d'effondrement dimensionnel que les modifications localisées propagent des interférences globales dégradant les capacités du modèle. Les méthodes par récupération surpassent systématiquement l'édition paramétrique.

Fine-tuningRaisonnementPapers
SIG
78
HYP
00
arXiv cs.LG·

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Les réseaux de tenseurs non-linéaires automatiquement différentiables (ADNTNs) compressent les poids de réseaux de neurones via des tenseurs cœurs entraînés par différenciation automatique. Testés sur AlexNet et VGG-16, ils atteignent des ratios de compression de 2000× à 77000× par couche avec précision préservée ou améliorée.

Fine-tuningPapersBenchmarks
SIG
72
HYP
00
arXiv cs.CL·

Parameter Alignment Mitigates Catastrophic Forgetting in Multilingual Expert Language Models

Étude sur la prévention de l'oubli catastrophique lors de l'entraînement continu de modèles de langage multilingues. Les auteurs proposent cinq stratégies d'alignement des paramètres (gel de couches, régularisation, reversion post-hoc, fusion de modèles) testées sur 32 langues et quatre axes d'évaluation. L'alignement réduit significativement l'oubli des capacités existantes.

Fine-tuningPapersBenchmarks
SIG
78
HYP
00
arXiv cs.AI·

Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs

Des chercheurs montrent que les traces de raisonnement cachées des LLM peuvent être extraites via Reasoning Exposure Prompting (REP), une méthode de prompting légère utilisant des démonstrations générées par modèles fantômes. REP expose les traces internes même quand les systèmes déployés les masquent intentionnellement, préservant les signaux de raisonnement utiles pour la distillation.

RaisonnementPrompt engineeringFine-tuning
SIG
75
HYP
00
arXiv cs.LG·

RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting

RAFT est une méthode de fine-tuning domaine en deux étapes qui réduit l'oubli catastrophique. Elle raffine les données via réécriture auto-conditionnée et fusion de réponses, puis applique une distillation on-policy où le modèle original fournit des cibles souples sur les trajectoires générées. Sur 5 domaines, RAFT améliore la précision domaine de 23,2% vs SFT standard et récupère 18,2% de dégradation sur MS-Bench.

Fine-tuningReinforcement learningPapers
SIG
78
HYP
00
arXiv cs.LG·

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate

ARCA propose une nouvelle méthode d'attribution de crédit au niveau des tokens pour l'apprentissage par renforcement des LLM. Elle résout la dégénérescence des signaux intrinsèques (surprisal, entropy reduction, policy divergence) sous LoRA en mesurant directement les changements cachés de l'adaptateur via la norme L2 du résidu. Testée sur MATH/Qwen3-1.7B avec GRPO, ARCA évite la concentration pathologique des poids.

Reinforcement learningFine-tuningRaisonnement
SIG
75
HYP
00
arXiv cs.LG·

Rethinking the Role of Temperature in Large Language Model Distillation

Étude arXiv sur le rôle de la température dans la distillation de LLM. Les auteurs montrent que la divergence KL avant (FKL) surpasse la divergence KL inverse (RKL) à températures élevées, contrairement aux conclusions empiriques antérieures qui omettaient ce paramètre. La température enrichit FKL avec des signaux de tokens non-dominants tandis qu'elle rescale seulement les gradients RKL.

Fine-tuningPapersBenchmarks
SIG
72
HYP
00
arXiv cs.CL·

Enhancing BiGRU with a KAN Block for Legal Document Classification and Summarization

Architecture BiGRU augmentée d'un bloc KAN (Kolmogorov-Arnold Network) pour la classification et résumé de documents juridiques multilingues en contexte faible ressource. Évaluation sur corpus bengali/anglais/translittéré du Bangladesh : 67,96% accuracy en classification (F1=0,65), ROUGE-1/2/L de 0,38/0,23/0,31 en résumé. Ablation : KAN améliore la classification de 57,34% à 67,96%.

BenchmarksFine-tuning
SIG
45
HYP
00
arXiv cs.CL·

Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

UniKE, premier benchmark pour l'édition de connaissances cross-modal dans les modèles multimodaux unifiés (UMMs), révèle un écart critique : l'efficacité textuelle atteint 92% mais la précision VQA en génération d'images chute à 18,5%. Une méthode d'édition paramétrique augmentée par raisonnement améliore les résultats jusqu'à +18,6 points.

BenchmarksVisionFine-tuning
SIG
78
HYP
00
arXiv cs.AI·

From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging

Preference Delta Aggregation (PDA) agrège des signaux de préférence faibles issus de paires de modèles (ex: Qwen3 4B vs 1.7B) via fusion de LoRA. Geometric Alignment Merging (GAM) aligne les sous-espaces d'adaptateurs avant agrégation. Sur benchmarks de raisonnement et recherche agentique, PDA+GAM améliore Qwen3 8B de +6,8 et +7,3 points respectivement.

QwenFine-tuningReinforcement learning
SIG
78
HYP
00
arXiv cs.LG·

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

FoLoRA, un framework d'optimisation conscient de l'oubli, adapte les modèles de fondation via quotient de Rayleigh généralisé. Il équilibre performance sur tâche cible et préservation des capacités préentraînées en pénalisant les directions d'adaptation à faible utilité relative à l'oubli. Testé sur adaptation mathématique, code et suivi d'instructions.

Fine-tuningPapersAlignement
SIG
72
HYP
00
Reddit r/MachineLearning·

Finetuning a Reasoning LLM with Supervised or Reinforcement Learning? [D]

Discussion sur le fine-tuning de petits LLMs avec données conversationnelles annotées incluant traces de raisonnement et décisions d'appel d'outils. L'auteur propose de structurer les données en samples avec historique complet et masquage de la loss sur tokens non-assistant. Demande si SFT suffit ou si RL (PPO, GRPO, DPO) est nécessaire pour optimiser l'utilisation d'outils.

Fine-tuningRaisonnementReinforcement learning
SIG
35
HYP
00
arXiv cs.CL·

ImmigrationQA: A Source-Grounded Dataset and Small-Model Adaptation for U.S. Immigration Law

ImmigrationQA : dataset de 17 058 paires QA source-grounded sur le droit d'immigration américain (13 sous-domaines). Fine-tuning d'un Llama 3.2 3B avec LoRA sur corpus de 10 056 documents validés. Modèle fine-tuné : 1.08/3.0 (16.8% correct) vs Llama 3 8B base : 0.85/3.0 (4% correct), amélioration relative 27%. Coût : ~29$. Dataset, modèle et code publics.

LlamaFine-tuningRAG
SIG
78
HYP
00
arXiv cs.LG·

The Long-Term Effects of Data Selection in LLM Fine-Tuning

Étude sur les effets long terme de la sélection de données lors du fine-tuning d'LLM sur plusieurs étapes. Les auteurs montrent que les stratégies optimales à court terme (loss-based, gradient-based, diversity-based) peuvent ralentir l'apprentissage futur et augmenter l'oubli catastrophique. Ils proposent LHAS (Long-Horizon Aware Selection) pour évaluer la sélection comme intervention d'entraînement globale.

Fine-tuningBenchmarksPapers
SIG
78
HYP
00
arXiv cs.LG·

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn, un framework de préentraînement multi-dataset, résout le compromis entre modèles indépendants par canal (scalables mais ignorant les dépendances) et modèles dépendants (expressifs mais limités en dimensions). Via un codebook de prototypes latents, il projette des canaux hétérogènes dans un espace partagé pour apprendre des patterns de corrélation réutilisables et transférables.

PapersBenchmarksFine-tuning
SIG
72
HYP
00
arXiv cs.LG·

Bounded Behavioral Indistinguishability for Black-Box LLM Distillation

Étude de la distillation de LLM en boîte noire via la notion de « bounded behavioral indistinguishability ». Les auteurs évaluent des paires Qwen et Llama avec une suite de 5 000 prompts, montrant que LoRA améliore la similarité sémantique (0.788→0.862 pour Qwen, 0.814→0.874 pour Llama) mais laisse subsister des différences comportementales détectables par adversaires.

Fine-tuningÉvaluationsSécurité IA
SIG
72
HYP
00
Reddit r/LocalLLaMA·

I bolted an 8-arm reasoning MoE onto a frozen 1.4B Mamba backbone on a single RTX 3060. Here’s the mechanistic autopsy of what broke and what worked.

Un chercheur a construit Mamba-Titan-1.4B-Reasoning (2.54B params MoE) sur RTX 3060 en gelant un backbone Mamba-1 1.4B et en ajoutant 8 experts entraînables. Entraîné sur traces CoT DeepSeek, le modèle a développé un mécanisme de « vault door » : le token </think> s'isole à la plus petite norme (1.991 vs 4.742 moyenne) pour contrôler la terminaison du raisonnement latent.

RaisonnementFine-tuningOpen source
SIG
78
HYP
00