Retour au feed
arXiv cs.CL·

Thinking with Patterns: Breaking the Perceptual Bottleneck in Visual Planning via Pattern Induction

Signal
45
Hype
35
En 3 lignesLes VLMs peinent à planifier à partir d'entrées visuelles complexes. Cet article propose Pattern Induction, une stratégie d'apprentissage inductif en ligne qui découvre et optimise des motifs visuels réutilisables comme experts composites. Pattern Inference permet aux VLMs de reconnaître ces motifs et d'inférer directement les structures du modèle du monde. Évalué sur FrozenLake, Crafter et CubeBench.
Lire la source
Ton avis ?
VisionRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain