Vision Transformer-Conditioned UNet for Domain-Adaptive Semantic Segmentation
Signal
72
Hype
18
En 3 lignesViTC-UNet combine un Vision Transformer pré-entraîné gelé avec un UNet conditionné par tokens apprenables et un décodeur d'attention bidirectionnel. L'approche améliore la segmentation sémantique biomédicale sur IRM et CT sans fine-tuning end-to-end, en ajoutant le biais inductif local des UNets aux priors visuels globaux des ViTs.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain