arXiv cs.AI·19 mai 2026

LEGO: An LLM Skill-Based Front-End Design Generation Platform

Signal

Hype

En 3 lignesLEGO est une plateforme modulaire pour la génération de designs front-end numériques utilisant des LLM. Elle décompose le flux en 6 étapes et extrait 42 compétences de circuit réutilisables. Sur 41 problèmes VerilogEval v2 où GPT-5.2-codex échoue, LEGO atteint 80,5% Pass@1 vs 0% baseline, surpassant hierarchy-verilog (+14,6%) et VerilogCoder (+2,5%).

## LEGO : La modularité comme réponse à l'échec des agents EDA monolithiques

### 1. Ce qui se passait avant

Le paysage des agents LLM pour la génération RTL (Register Transfer Level) était fragmenté : chaque système — VerilogCoder, hierarchy-verilog, MAGE — résolvait un sous-problème spécifique sans capitaliser sur les solutions des autres. Résultat : duplication d'effort d'ingénierie, impossibilité de réutiliser les stratégies de débogage qui fonctionnent, et des benchmarks où chaque outil plafonne sur des problèmes différents. GPT-5.2-codex lui-même, poussé à son niveau de raisonnement maximal ("extra-high reasoning effort"), échoue sur 41 problèmes du subset difficile de VerilogEval v2 — Pass@1 = 0,000. C'est le plancher à partir duquel LEGO est évalué.

### 2. Ce que LEGO fait concrètement

LEGO découpe le flux front-end numérique en **6 étapes indépendantes** formalisées comme une machine à états finis, et représente chaque capacité d'agent comme une **circuit skill** standardisée, composable, plug-and-play. L'architecture repose sur trois composants clés :

- **Circuit Skill Builder** : automatise l'extraction de compétences avec une scalabilité linéaire. Les auteurs ont passé en revue >100 papiers, sélectionné 11 projets open-source représentatifs, et en ont extrait **42 circuit skills exécutables**. - **Agent Skill RAG** : retrieval sub-milliseconde sans modèle d'embedding — une décision d'architecture notable qui élimine une dépendance lourde et réduit la latence de récupération. - **Composition cross-projet** : les skills issues de projets différents peuvent être combinées, ce qui est le vrai test de généralisation.

Le tout est open-source sur GitHub, avec la plateforme et les 42 skills disponibles immédiatement.

### 3. Les chiffres qui comptent

Sur les 41 problèmes où GPT-5.2-codex échoue à 0% : - **LEGO (skills individuelles)** : Pass@1 = **0,805** (+80,5 points absolus) - **LEGO (compositions cross-projet)** : Pass@1 = **0,805** (identique, ce qui valide la robustesse de la composition) - **hierarchy-verilog** : battu de **+14,6 points** - **VerilogCoder** : battu de **+2,5 points** - **MAGE** : égalité — LEGO atteint le même niveau sans l'architecture monolithique de MAGE

Le fait que les compositions cross-projet atteignent exactement le même score que les skills individuelles (0,805 vs 0,805) est à la fois rassurant — la composition ne dégrade pas — et légèrement décevant : on pourrait espérer une synergie additive. Cela suggère que le plafond est peut-être dans le benchmark lui-même ou dans la formulation des skills, pas dans l'architecture.

### 4. Qui perd, qui gagne, ce qui reste ouvert

**Perdants potentiels** : Les équipes qui maintiennent des agents EDA monolithiques (VerilogCoder, hierarchy-verilog) voient leur avantage compétitif réduit. Si LEGO devient une plateforme de référence, les contributions futures iront vers l'enrichissement de la skill library plutôt que vers des systèmes fermés. Les fournisseurs de solutions EDA propriétaires qui misent sur l'opacité de leurs pipelines LLM sont également exposés.

**Gagnants** : Les équipes hardware qui n'ont pas les ressources pour maintenir un agent EDA complet peuvent désormais assembler des pipelines à partir de 42 skills validées. La scalabilité linéaire du Circuit Skill Builder signifie que la bibliothèque peut croître sans coût architectural exponentiel.

**Ce qui reste ouvert** : Le benchmark VerilogEval v2 couvre le front-end numérique, mais le flux EDA complet inclut synthèse, placement, routage — des étapes où LEGO ne prétend pas opérer. La question de la généralisation à des designs industriels (non-benchmark) reste entière. Le RAG sans embedding est rapide, mais sa précision sur des skills très proches sémantiquement n'est pas discutée. Enfin, 42 skills extraites de 11 projets open-source représentent un corpus limité : la couverture des patterns RTL industriels réels est inconnue.

LEGO est une réponse d'ingénierie sérieuse à un problème réel de fragmentation. Le score de 80,5% Pass@1 sur un subset que GPT-5.2-codex ne résout pas est le résultat le plus dur à ignorer dans la littérature EDA-LLM récente.

Lire la source

Ton avis ?

Génération de code Agents IA Benchmarks Open source RAG

Résumé généré par Claude — vérifié par l'humain

LEGO: An LLM Skill-Based Front-End Design Generation Platform

Autres angles sur ce sujet