When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution
Signal
75
Hype
25
En 3 lignesLongAct est un benchmark pour évaluer la planification autonome d'agents dans des tâches ménagères longues durée spécifiées en langage naturel. HoloMind, un agent basé VLM avec planificateur hiérarchique DAG, mémoire spatiale multimodale et mémoire épisodique, atteint 59% de complétion d'objectifs avec GPT-5 et Qwen3-VL.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain