Vision Transformer-Conditioned UNet for Domain-Adaptive Semantic Segmentation
ViTC-UNet combine un Vision Transformer pré-entraîné gelé avec un UNet conditionné par tokens apprenables et un décodeur d'attention bidirectionnel. L'approche améliore la segmentation sémantique biomédicale sur IRM et CT sans fine-tuning end-to-end, en ajoutant le biais inductif local des UNets aux priors visuels globaux des ViTs.