Retour au feed
arXiv cs.AI·

SDR: Set-Distance Rewards for Radiology Report Generation

Signal
78
Hype
15
En 3 lignesNouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.
Lire la source
Ton avis ?
Reinforcement learningVisionGénération de codeÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain