SmolVLA: Efficient Vision-Language-Action Model trained on Lerobot Community Data
Signal
72
Hype
28
En 3 lignesHugging Face présente SmolVLA, un modèle vision-langage-action efficace entraîné sur les données communautaires Lerobot. Le modèle combine perception visuelle et compréhension du langage pour générer des actions robotiques, optimisé pour l'inférence sur ressources limitées.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain