arXiv cs.AI·19 mai 2026

When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution

Signal

Hype

En 3 lignesLongAct est un benchmark pour évaluer la planification autonome d'agents dans des tâches ménagères longues durée spécifiées en langage naturel. HoloMind, un agent basé VLM avec planificateur hiérarchique DAG, mémoire spatiale multimodale et mémoire épisodique, atteint 59% de complétion d'objectifs avec GPT-5 et Qwen3-VL.

Lire la source

Ton avis ?

Benchmarks Agents IA Raisonnement Vision

Résumé généré par Claude — vérifié par l'humain

When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution

Autres angles sur ce sujet