arXiv cs.AI·20 mai 2026

PRISM: A Benchmark for Programmatic Spatial-Temporal Reasoning

Signal

Hype

En 3 lignesPRISM est un benchmark de 10 372 paires instruction-code pour l'évaluation de la génération vidéo programmatique par LLM. Il propose 4 métriques : fiabilité du code, cohérence spatiale, complexité visuelle et densité temporelle. L'évaluation de 7 LLM révèle un écart d'exécution-spatial de 41% : le code exécutable ne garantit pas une sortie visuellement cohérente.

## PRISM : quand l'exécutabilité du code ne suffit plus

### 1. Ce qui est annoncé

PRISM (arXiv:2605.19382) est un benchmark de 10 372 paires instruction-code calibrées par des humains, conçu pour évaluer la capacité des LLM à générer de la vidéo programmatique — c'est-à-dire du code qui produit des animations géométriquement précises plutôt que des sorties pixel-level issues de modèles de diffusion. L'ensemble couvre 437 catégories thématiques, est bilingue (anglais et chinois), et se positionne comme 20× plus grand que les benchmarks précédents dans ce sous-domaine. Il introduit quatre métriques organisées en entonnoir : Code-Level Reliability (exécutabilité brute), Spatial Reasoning (correction du layout sur la séquence d'animation complète), Prompt-Aware Dynamic Visual Complexity (PADVC) et Temporal Density (TD).

### 2. Le chiffre qui compte : le gap exécution-spatial de 41 %

L'évaluation de 7 LLM mainstream révèle que le taux de succès à l'exécution et le taux de passage spatial divergent en moyenne de **41 points de pourcentage**. Autrement dit, un modèle peut produire du code syntaxiquement valide et fonctionnel tout en générant une sortie visuellement incohérente — objets mal positionnés, séquences temporelles désordonnées, layouts qui violent les contraintes spatiales de l'instruction.

Avant PRISM, l'état de l'art en évaluation programmatique s'arrêtait essentiellement à l'exécutabilité : le code tourne ou ne tourne pas. Les benchmarks existants — nettement plus petits, monolingues, à couverture thématique étroite — ne distinguaient pas entre "le code s'exécute" et "le code produit ce qui était demandé visuellement". Ce gap de 41 % quantifie pour la première fois l'ampleur de cette illusion de compétence : les classements LLM basés sur l'exécutabilité seule sont potentiellement trompeurs sur la moitié du spectre de performance réel.

### 3. Pourquoi la vidéo programmatique, et pourquoi maintenant

La génération vidéo par diffusion (Sora, Runway, Kling) excelle sur le réalisme perceptuel mais échoue sur la précision géométrique et la cohérence temporelle contrôlée. Pour des cas d'usage comme la visualisation scientifique, les animations pédagogiques, les diagrammes dynamiques ou les simulations de données, le code (Manim, matplotlib animations, Three.js, etc.) reste le seul vecteur fiable de précision spatiale. Les LLM sont de plus en plus sollicités pour générer ce code à partir d'instructions en langage naturel — d'où l'urgence d'un benchmark qui mesure la qualité de la sortie visuelle, pas seulement la syntaxe.

La dimension bilingue (EN/ZH) et les 437 catégories signalent aussi une ambition de couverture encyclopédique : PRISM vise à être le référentiel standard, pas un benchmark de niche.

### 4. Perdants potentiels et limites

**Les modèles bien classés sur les benchmarks d'exécutabilité existants** sont les premiers exposés : si leur avance repose sur la fiabilité syntaxique plutôt que sur la cohérence spatiale, PRISM les reclasse vers le bas. Les équipes qui ont optimisé leurs fine-tunings ou leurs prompts système autour de métriques pass@k classiques devront retravailler leurs pipelines d'évaluation.

**Les éditeurs de frameworks de génération vidéo programmatique** (Manim en tête) voient leur écosystème devenir un terrain d'évaluation standardisé — ce qui peut accélérer l'adoption mais aussi exposer les limitations de leurs APIs face à des instructions complexes.

**Limite méthodologique notable** : PRISM est calibré par des humains, ce qui garantit la qualité des paires instruction-code mais introduit un biais de sélection sur les types de scénarios jugés représentatifs. La métrique PADVC (complexité visuelle dynamique) reste la plus difficile à interpréter sans accès aux détails d'implémentation — son opérationnalisation exacte n'est pas entièrement transparente dans l'abstract.

**La Temporal Density** comme métrique autonome est prometteuse mais non validée contre des jugements humains de qualité temporelle dans l'abstract publié — un point à vérifier dans le papier complet.

En synthèse : PRISM déplace le seuil d'exigence pour l'évaluation des LLM sur la génération de code visuel. Le gap de 41 % n'est pas un artefact de benchmark — c'est la mesure d'un angle mort systématique dans l'évaluation actuelle. Tout laboratoire qui publie des performances LLM sur des tâches de code génératif visuel sans métrique spatiale sous-estime désormais structurellement ses erreurs.

Lire la source

Ton avis ?

Benchmarks Génération de code Génération de vidéos Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

PRISM: A Benchmark for Programmatic Spatial-Temporal Reasoning

Autres angles sur ce sujet