arXiv cs.CL·21 mai 2026

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Signal

Hype

En 3 lignesProxyCoT, une méthode de fine-tuning par chaîne de pensée, améliore le raisonnement sur contextes longs (jusqu'à 10M tokens) en transférant les capacités de raisonnement depuis des contextes proxy courts vers des contextes complets via RL/distillation puis fine-tuning supervisé. Gains de performance avec surcharge computationnelle réduite et généralisation cross-domain.

Lire la source

Ton avis ?

Raisonnement Fine-tuning Reinforcement learning Prompt engineering

Résumé généré par Claude — vérifié par l'humain

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Autres angles sur ce sujet