Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning
En 3 lignesHilbert-Geo introduit un cadre formel unifié pour la géométrie solide via Parse2Reason : parsing en langage CDL (Conditional Description Language) puis raisonnement avec théorèmes. Atteint 77,3% sur SolidFGeo2k et 84,1% sur MathVerse-Solid, surpassant Gemini-2.5-pro (54,2%) et GPT-5 (62,9%). Deux datasets annotés : SolidFGeo2k et PlaneFGeo3k.
## Hilbert-Geo : quand le raisonnement symbolique écrase les LLM sur la géométrie solide
### 1. Ce qui se passe réellement
Hilbert-Geo n'est pas un fine-tune de plus sur des problèmes de géométrie. C'est un cadre neuro-symbolique complet qui formalise la géométrie solide en langage machine vérifiable, puis exécute un raisonnement par théorèmes — pas par prédiction de tokens. Le résultat : 77,3% sur SolidFGeo2k contre 54,2% pour Gemini-2.5-pro, soit un écart de +23,1 points sur le même benchmark. Sur MathVerse-Solid, Hilbert-Geo atteint 84,1% face à 62,9% pour GPT-5, soit +21,2 points sur le modèle le plus récent d'OpenAI.
Ces chiffres ne sont pas marginaux. Ils signalent une limite structurelle des MLLM purs sur les tâches de raisonnement spatial 3D, indépendamment de leur taille ou de leur RLHF.
### 2. L'architecture Parse2Reason : deux étapes, zéro hallucination géométrique
La méthode repose sur une séparation nette entre perception et déduction :
**Étape 1 — Parsing** : le problème (texte + diagramme 3D) est converti en CDL (Conditional Description Language), un langage de prédicats formels conçu spécifiquement pour encoder les conditions géométriques. Un diagramme d'un prisme ou d'une pyramide devient une liste de prédicats vérifiables : relations d'incidence, parallélisme, perpendicularité, mesures angulaires. Ce n'est pas du captioning visuel approximatif — c'est une représentation symbolique contrainte.
**Étape 2 — Reasoning** : à partir du CDL et d'une banque de théorèmes dédiée, le système effectue une inférence relationnelle et un calcul algébrique. Le processus de raisonnement produit est « strictly correct, verifiable, and human-readable » selon les auteurs — ce qui signifie qu'on peut auditer chaque étape, contrairement à une chaîne de pensée générée par un LLM.
La banque de théorèmes est le vrai actif propriétaire ici. Elle couvre la géométrie solide (volumes, sections planes, projections) et plane (80,2% sur PlaneFGeo3k), ce qui démontre que le framework n'est pas sur-ajusté à un seul domaine.
### 3. Les datasets : SolidFGeo2k et PlaneFGeo3k
L'absence de benchmarks annotés formellement était précisément ce qui bloquait le progrès sur la géométrie solide. Les auteurs publient deux datasets annotés par experts :
- **SolidFGeo2k** : ~2 000 problèmes de géométrie solide avec annotations CDL, solutions et réponses - **PlaneFGeo3k** : ~3 000 problèmes de géométrie plane, même format
La valeur de ces datasets dépasse Hilbert-Geo lui-même : ils constituent une infrastructure d'évaluation pour tous les systèmes futurs. MathVerse-Solid existait déjà mais représente un sous-ensemble restreint ; SolidFGeo2k est le premier benchmark dédié à grande échelle pour la géométrie solide formelle.
### 4. Perdants potentiels et limites à surveiller
**Les MLLM généralistes** sont les perdants immédiats sur ce type de tâche. Gemini-2.5-pro et GPT-5 sont des modèles de plusieurs centaines de milliards de paramètres entraînés sur des corpus massifs — et ils perdent de 20+ points face à un système spécialisé. Cela repose la question du ROI de la généralisation pour les tâches de raisonnement formel.
**Les approches purement end-to-end** sur la géométrie (type AlphaGeometry 2 de DeepMind, qui cible la géométrie plane olympique) n'ont pas de réponse directe pour la géométrie solide. Hilbert-Geo occupe un espace non couvert.
**Les limites non résolues** : l'étape de parsing reste dépendante de la qualité de la reconnaissance visuelle des diagrammes 3D — le papier ne détaille pas les taux d'erreur de parsing isolément. Si le CDL généré contient une erreur de prédicat, le raisonnement symbolique en aval sera formellement correct mais factuellement faux. La robustesse au bruit visuel (diagrammes mal dessinés, perspectives ambiguës) n'est pas quantifiée.
Par ailleurs, la « banque de théorèmes » n'est pas encore publique dans sa totalité — les auteurs annoncent une mise à disposition du code et des datasets, mais la couverture exacte des théorèmes implémentés déterminera les cas limites du système.
**Le vrai test** sera la performance sur des problèmes hors distribution — concours de niveau lycée avancé ou prépa — où les configurations géométriques sortent du périmètre des théorèmes encodés. C'est là que les LLM, malgré leurs faiblesses, gardent une flexibilité que les systèmes symboliques n'ont pas.
Résumé généré par Claude — vérifié par l'humain