Learn from your own latents and not from tokens: A sample-complexity theory
En 3 lignesArticle théorique sur l'efficacité échantillonnale des modèles prédisant leurs propres représentations latentes (data2vec, JEPA). Preuve que la prédiction latente réduit la complexité d'échantillon de exponentielle en L (profondeur) à constante, vs. prédiction de tokens. Validation sur grammaires probabilistes et réseaux de neurones.
## Prédiction latente vs. prédiction de tokens : la théorie rattrape l'empirique
### 1. Ce qui est prouvé — et pourquoi c'est non-trivial
Depuis data2vec (Meta, 2022) et JEPA (LeCun, 2022-2024), la communauté observe empiriquement que prédire ses propres représentations latentes converge plus vite que prédire des tokens bruts. Mais « plus vite » restait quantitativement vague. arXiv:2605.27734 pose la première borne formelle : pour des données générées par une grammaire hors-contexte probabiliste (PCFG) de profondeur L, la prédiction supervisée ou SSL au niveau token nécessite un nombre d'échantillons **exponentiel en L** pour reconstruire l'arbre latent sous-jacent. La prédiction latente (style JEPA/data2vec) y parvient avec un nombre d'échantillons **constant en L** (à facteurs logarithmiques près).
La PCFG est un choix de modèle délibérément tractable : elle génère des séquences visibles par application récursive de règles de production le long d'un arbre de symboles cachés de profondeur L. C'est un proxy formel pour la structure compositionnelle du langage naturel et des images — exactement le régime où les LLM consomment des ordres de grandeur plus de données que les apprenants biologiques, comme le note l'abstract.
### 2. Le résultat central et ses trois validations
La preuve s'appuie sur le fait que la prédiction latente court-circuite la nécessité d'inférer les L niveaux de l'arbre depuis les feuilles observables. En prédisant directement des représentations intermédiaires, le modèle n'a besoin que d'estimer des statistiques locales à chaque niveau, ce qui brise la dépendance exponentielle en profondeur.
Les auteurs valident ce résultat sur trois fronts : - **Algorithme de clustering hiérarchique** : implémentation directe de la borne théorique, confirme la complexité constante en L. - **Réseau de neurones end-to-end** : modules prédicteur-clusterer qui prédisent leurs propres latents à chaque niveau via descente de gradient — preuve que la borne tient dans un cadre paramétrique réaliste. - **Analyse de data2vec** : première analyse formelle de complexité échantillonnale de data2vec, montrant qu'il effectue *implicitement* une prédiction latente hiérarchique. Ce n'était pas évident à la lecture de l'architecture originale.
### 3. La conclusion sur H-JEPA : un perdant inattendu
Le résultat le plus opérationnellement important concerne H-JEPA (Hierarchical JEPA), la variante explicitement hiérarchique proposée pour empiler plusieurs niveaux de prédiction latente. Les auteurs concluent que **H-JEPA est « largement redondant »** : data2vec réalise déjà implicitement cette hiérarchie, et la borne de complexité constante en L est atteignable sans empilement explicite.
C'est un signal négatif direct pour les équipes qui investissent dans des architectures H-JEPA complexes. Si la théorie tient dans des régimes plus généraux que la PCFG, l'ingénierie supplémentaire de H-JEPA n'apporte pas de gain d'efficacité échantillonnale — elle ajoute de la complexité architecturale sans bénéfice prouvable.
Les autres perdants potentiels : les approches de SSL contrastif pur (SimCLR, MoCo) et les LLM autorégressifs standard, qui restent dans le régime exponentiel en L selon ce cadre. La prédiction de tokens — qu'elle soit masquée (BERT) ou causale (GPT) — ne bénéficie pas de la réduction de complexité démontrée ici.
### 4. Limites et portée réelle
La PCFG est un modèle jouet par rapport à la distribution réelle des données d'entraînement des LLM. Les auteurs ne prétendent pas que leurs bornes s'appliquent directement à GPT-4 ou à V-JEPA. La question ouverte est de savoir dans quelle mesure la structure compositionnelle des données réelles ressemble à une PCFG de profondeur L — et si les représentations apprises par les transformers actuels se comportent comme les latents théoriques du modèle.
Néanmoins, le résultat a une valeur de calibration importante : il donne une explication mécaniste formelle à l'avantage empirique observé de JEPA sur les benchmarks visuels (V-JEPA vs. MAE sur Kinetics, par exemple) et justifie théoriquement l'intuition de LeCun sur l'architecture world model. Pour les praticiens qui choisissent entre paradigmes de pré-entraînement, ce papier fournit le premier argument théorique solide en faveur de la prédiction latente — non plus seulement une observation empirique.
Résumé généré par Claude — vérifié par l'humain