arXiv cs.AI·2 juin 2026

SDR: Set-Distance Rewards for Radiology Report Generation

Signal

Hype

En 3 lignesNouvelle méthode de récompense basée sur les distances entre ensembles pour l'entraînement par renforcement de modèles vision-langage sur la génération de rapports radiologiques. Testée sur Qwen3-VL, Gemma3 avec GRPO : amélioration de 6,80% (BERTScore), 7,82% (RadGraph F1), 4,45% (CheXbert F1) vs fine-tuning supervisé. Permet aussi sélection test-time et élagage mid-generation réduisant tokens de 50%.

Lire la source

Ton avis ?

Reinforcement learning Vision Génération de code Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

SDR: Set-Distance Rewards for Radiology Report Generation

Autres angles sur ce sujet