Retour au feed
arXiv cs.CL·

Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

Signal
78
Hype
25
En 3 lignesFast-dDrive est un modèle VLA (Vision-Language-Action) basé sur la diffusion par blocs pour la conduite autonome. Il combine raffinement bidirectionnel au sein d'unités sémantiques avec un ordre causal strict, gère les sorties JSON structurées et atteint 12× d'accélération de débit avec SGLang. Sur nuScenes, erreur L2 réduite à 0,32m (amélioration 22%), SOTA sur WOD-E2E.
Lire la source
Ton avis ?
VisionGénération de codeRaisonnementBenchmarksRobotique

Résumé généré par Claude — vérifié par l'humain