arXiv cs.CL·25 May 2026

Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

Signal

Hype

In three linesFast-dDrive is a block-diffusion VLA (Vision-Language-Action) model for autonomous driving. It combines bidirectional refinement within semantic units with strict causal ordering, handles structured JSON outputs, and achieves 12× throughput speedup with SGLang. On nuScenes, L2 error reduced to 0.32m (22% improvement), SOTA on WOD-E2E.

Read source

Your take?

Vision Code generation Reasoning Benchmarks Robotics

Summary generated by Claude — human-verified

Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

Other angles on this story