arXiv cs.AI·19 mai 2026

Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving

Signal

Hype

En 3 lignesFastDrive, un VLM compact de 0.9B paramètres, surpasse les modèles de 7B+ (LLaVA-1.5) sur tâches de conduite autonome. Entraîné sur NuScenes-S, un benchmark avec représentations structurées, il atteint +20% de précision en décision avec 10x speedup en inférence.

Lire la source

Ton avis ?

Vision Raisonnement Benchmarks Génération de code Robotique

Résumé généré par Claude — vérifié par l'humain

Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving

Autres angles sur ce sujet