Retour au feed
arXiv cs.AI·

OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

Signal
82
Hype
18
En 3 lignesOpenMedQ est un modèle vision-langage médical préentraîné sur 14 datasets (~3.35M échantillons) couvrant pathologie, radiologie, microscopie et QA clinique. Il atteint 75.9 BLEU-1 sur PathVQA (surpassant Med-PaLM M 562B) et 0.757 macro-F1 moyen sur 8 benchmarks de classification médicale non vus.

## OpenMedQ : quand 3,35M d'échantillons ouverts battent 562 milliards de paramètres fermés

### 1. Ce qui se passe concrètement

OpenMedQ est un modèle vision-langage médical préentraîné sur un mix entièrement open-source de 14 datasets (~3,35M échantillons) couvrant quatre modalités : pathologie, radiologie, microscopie et QA clinique texte-seul. L'équipe publie le code et un démo interactif, ce qui en fait la baseline reproductible la plus large du domaine à ce jour.

Le résultat central : **75,9 BLEU-1 sur PathVQA**, surpassant tous les variants Med-PaLM M y compris la version 562B — soit un modèle environ 80× plus grand. Sur VQA-MED, OpenMedQ atteint 64,5 BLEU-1, égalant le meilleur score rapporté dans la littérature. Ce n'est pas une amélioration marginale sur un benchmark de niche : PathVQA et VQA-MED sont les deux références canoniques du QA médical multimodal.

### 2. Pourquoi ce résultat est structurellement important

La comparaison avec Med-PaLM M mérite d'être décomposée. Med-PaLM M est un modèle Google, non open-source, entraîné à une échelle massive (jusqu'à 562B paramètres). Son accès est restreint, sa reproductibilité nulle pour la majorité des équipes de recherche. OpenMedQ le bat sur PathVQA avec un mix de données entièrement public et un code disponible — ce qui déplace la question de "quelle organisation a les plus gros GPU" vers "quelle curation de données est la plus efficace".

La breadth du préentraînement est la variable clé ici. Les modèles précédents comme BiomedCLIP, PMC-CLIP et PubMedCLIP se concentraient principalement sur des paires image-texte issues de PubMed Central. OpenMedQ intègre 14 sources hétérogènes couvrant des modalités distinctes, ce qui explique probablement la meilleure généralisation observée sur les 8 benchmarks de classification non vus.

### 3. Le benchmark de transfert : l'indicateur le plus solide

Le score PathVQA peut être influencé par des overlaps de distribution entre données de préentraînement et de test. Le vrai test de généralisation est le transfert zero-shot sur 8 benchmarks de classification médicale **non vus pendant le préentraînement**, sous une recette downstream identique pour tous les modèles comparés.

Résultats macro-F1 moyens : - OpenMedQ : **0,757** - PubMedCLIP : 0,746 - BiomedCLIP : 0,745 - PMC-CLIP : 0,745 - Baseline from-scratch : 0,616

L'écart entre OpenMedQ et le trio BiomedCLIP/PMC-CLIP/PubMedCLIP est de ~0,011-0,012 points de macro-F1. Ce n'est pas spectaculaire en valeur absolue, mais c'est **systématique sur 8 tâches hétérogènes**, ce qui suggère un encodeur visuel genuinement plus robuste plutôt qu'une optimisation sur une distribution spécifique. L'écart avec la baseline from-scratch (+0,141) confirme que le préentraînement médical spécialisé reste indispensable.

### 4. Perdants potentiels et limites à surveiller

**Perdants directs :** BiomedCLIP (Microsoft), PMC-CLIP et PubMedCLIP perdent leur statut de référence open-source pour les encodeurs visuels médicaux. Les équipes qui ont construit des pipelines downstream sur ces modèles ont maintenant une baseline plus forte à justifier de ne pas utiliser.

**Med-PaLM M et les LMM fermés à grande échelle** voient leur argument de "seule la taille compte" fragilisé sur les tâches de QA médical structuré. Si un modèle open-source de taille raisonnable bat 562B paramètres sur PathVQA, la justification du coût d'inférence des très grands modèles pour ce type de tâche devient difficile à défendre.

**Limites à ne pas ignorer :** L'article ne rapporte pas la taille exacte du modèle OpenMedQ ni les coûts de préentraînement, ce qui rend la comparaison d'efficacité computationnelle incomplète. Le score BLEU-1 comme métrique principale sur PathVQA est une métrique faible pour le QA médical (elle ne capture pas la précision clinique). La macro-F1 sur 8 benchmarks non nommés explicitement dans l'abstract mérite une vérification des datasets concernés — certains pourraient être proches des sources de préentraînement. Enfin, "fully open" désigne ici la disponibilité des données et du code, pas nécessairement des poids du modèle dans toutes les configurations.

Pour les praticiens qui construisent des systèmes de vision médicale, OpenMedQ devient la nouvelle baseline à battre — et sa reproductibilité complète en fait un point de départ légitime pour des fine-tunings spécialisés.

Lire la source
Ton avis ?
VisionBenchmarksOpen sourcePapers

Résumé généré par Claude — vérifié par l'humain