Retour au feed
arXiv cs.CL·

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Signal
72
Hype
18
En 3 lignesProxyCoT, une méthode de fine-tuning par chaîne de pensée, améliore le raisonnement sur contextes longs (jusqu'à 10M tokens) en transférant les capacités de raisonnement depuis des contextes proxy courts vers des contextes complets via RL/distillation puis fine-tuning supervisé. Gains de performance avec surcharge computationnelle réduite et généralisation cross-domain.
Lire la source
Ton avis ?
RaisonnementFine-tuningReinforcement learningPrompt engineering

Résumé généré par Claude — vérifié par l'humain