SDR: Set-Distance Rewards for Radiology Report Generation
Signal
78
Hype
15
En 3 lignesNouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain