arXiv cs.AI·19 mai 2026

Vision Transformer-Conditioned UNet for Domain-Adaptive Semantic Segmentation

Signal

Hype

En 3 lignesViTC-UNet combine un Vision Transformer pré-entraîné gelé avec un UNet conditionné par tokens apprenables et un décodeur d'attention bidirectionnel. L'approche améliore la segmentation sémantique biomédicale sur IRM et CT sans fine-tuning end-to-end, en ajoutant le biais inductif local des UNets aux priors visuels globaux des ViTs.

Lire la source

Ton avis ?

Vision Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Vision Transformer-Conditioned UNet for Domain-Adaptive Semantic Segmentation

Autres angles sur ce sujet