Retour au feed
Reddit r/LocalLLaMA·

Nvidia LocateAnything - Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. (10x faster than Qwen3-VL)

Signal
75
Hype
35
En 3 lignesNvidia lance LocateAnything, un modèle vision-langage 3B pour le grounding spatial. Utilise le décodage parallèle de boîtes et affiche 10x plus rapide que Qwen3-VL. Code et démo disponibles sur HuggingFace.
Lire la source
Ton avis ?
VisionOpen sourceBenchmarks

Résumé généré par Claude — vérifié par l'humain