Topic

#Génération de code

La génération de code désigne la capacité d'un modèle d'IA à produire du code source à partir d'une instruction en langage naturel. GitHub Copilot, basé sur les modèles Codex d'OpenAI, est l'un des outils les plus répandus dans ce domaine.

40Articles

10Sources

68Signal moyen

arXiv cs.CL·18 juin

JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

JetFlow améliore le speculative decoding en combinant l'efficacité du drafting parallèle avec le conditionnement causal par branche. Sur GPU H100, il atteint 9.64x speedup sur MATH-500 et 4.58x sur conversations ouvertes, dépassant les méthodes tree-based existantes sur modèles Qwen3 denses et MoE.

Benchmarks Génération de code Open source

SIG

HYP

arXiv cs.LG·18 juin

Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

PROPEL est un framework qui entraîne des générateurs de tâches via RL pour créer des problèmes optimaux pour l'apprentissage d'agents. Une sonde légère prédit le taux de résolution sans rollouts répétés du solveur, réduisant l'évaluation à un forward pass. Sur code et SWE, les tâches au « learnable frontier » passent de 10,1% à 20% (Qwen2.5-3B) et de 9,8% à 19,6% (Qwen3.5-27B).

Reinforcement learning Agents IA Génération de code

SIG

HYP

arXiv cs.LG·18 juin

Ghost Attractor Networks: Basin-Structured Dynamical Decoders for Closed-Loop Sequential Generation

Ghost Attractor Networks propose un décodeur dynamique efficace pour la génération séquentielle en robotique. Avec 2,3M paramètres, il égale la précision d'un Diffusion Transformer de 1,07B paramètres (462× moins de paramètres, 32× plus rapide). Sur LIBERO-10, le conditionnement de phase améliore le taux de succès de 13,5 points vs MLP.

Génération de code Robotique Raisonnement

SIG

HYP

arXiv cs.LG·18 juin

CODEBLOCK: Learning to Supervise Code at the Right Granularity

CodeBlock est un framework de supervision sparse pour l'entraînement de LLMs de code. Il sélectionne des blocs de code syntaxiquement cohérents plutôt que des tokens isolés, en estimant leur utilité via cross-entropy généralisée et signaux de flux de données. Sur 6 benchmarks, CodeBlock surpasse la SFT full-token en utilisant seulement 1,9% des tokens supervisés.

Génération de code Fine-tuning Papers

SIG

HYP

arXiv cs.AI·18 juin

X+Slides: Benchmarking Audience-Conditioned Slide Generation

X+Slides est un benchmark pour l'évaluation de la génération de diapositives adaptées à l'audience. Construit sur 113 sujets et 8 133 sondes, il mesure quatre métriques : couverture audience, couverture par domaine, efficacité et exactitude. Les tests sur DeepPresenter, SlideTailor et NotebookLM montrent des taux de couverture audience entre 0,594 et 0,853.

Benchmarks Génération de code

SIG

HYP

Simon Willison·17 juin

GLM-5.2 is probably the most powerful text-only open weights LLM

Z.ai a publié GLM-5.2 (753B paramètres, 40 actifs en MoE) sous licence MIT le 16 juin. Modèle texte uniquement avec fenêtre de contexte de 1M tokens. Classé 1er sur l'Artificial Analysis Intelligence Index v4.1 (score 51) devant DeepSeek V4 Pro et Kimi K2.6. 2e sur Code Arena WebDev derrière Claude Fable 5.

Open source Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·17 juin

My GLM-5.2-FP8 HGX-H200 SGLang docker deploy config

Configuration Docker pour déployer GLM-5.2-FP8 sur HGX-H200 avec SGLang. Atteint 70 tokens/s et 262k contexte en désactivant DP et moe-a2a-backend deepep, avec mem-fraction-static à 0.83. Les recettes vLLM officielles incompatibles avec H200.

Qwen Génération de code Infrastructure

SIG

HYP

The Decoder·17 juin

Zhipu AI's GLM-5.2 closes in on closed-source leaders in coding marathons

Zhipu AI publie GLM-5.2 sous licence MIT avec contexte stable de 1 million de tokens. Sur FrontierSWE (benchmark de tâches de codage longues), le modèle open-source ne traîne que d'1 point derrière Claude Opus 4.8 d'Anthropic. Retard significatif sur le reasoning face aux modèles fermés.

Open source Génération de code Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Multilingual-Multimodal-NLP/LoopCoder-V2 · Hugging Face

LoopCoder-V2 est un modèle de code 7B basé sur Parallel Loop Transformer (PLT) qui améliore les performances par calcul au test-time via deux passes de blocs Transformer partagés. Entraîné sur 18T tokens de données mixtes texte/code, il atteint 64.4 sur SWE-bench Verified (vs 43.0 baseline), avec deux boucles comme optimum gain-coût.

Génération de code Raisonnement Benchmarks

SIG

HYP

Simon Willison·17 juin

Quoting Charity Majors

Charity Majors observe qu'en 2025, l'économie de la production de code s'est inversée : générer du code est devenu quasi gratuit et instantané au lieu d'être coûteux et chronophage. Les lignes de code, autrefois précieuses et réutilisées, sont devenues jetables et régénérables du jour au lendemain.

Génération de code Prompt engineering

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Gemma 4 E2B running in-browser at 255 tok/s using WebGPU kernels written by Fable 5

Gemma 4 E2B tourne en navigateur à 255 tokens/sec via kernels WebGPU optimisés par Fable 5. Demo et kernels disponibles sur Hugging Face.

Gemini Génération de code Open source

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

GameCraft-Bench évalue la capacité d'agents IA à construire des jeux jouables end-to-end dans un moteur de jeu réel. Benchmark teste Opus-4.7, GPT-5.5, Kimi-K2.6, DeepSeek-V4-Pro et autres. Absence de résultats pour modèles médium (27B-31B).

Agents IA Benchmarks Génération de code

SIG

HYP

Hacker News (AI)·17 juin

Launch HN: Adam (YC W25) – Open-Source AI CAD

Adam est un logiciel CAO open-source alimenté par l'IA, lancé par une startup YC W25. Le projet vise à automatiser la conception assistée par ordinateur via des modèles d'IA.

Open source Outils Génération de code

SIG

HYP

Hacker News (AI)·17 juin

Agentic coding deserves more than a chat box bolted onto VS Code

Un article critique sur l'intégration des agents de code dans VS Code via simple chat. L'auteur argue que les outils actuels manquent de profondeur pour exploiter le potentiel des systèmes agentic et demandent une refonte architecturale des éditeurs.

Agents IA Génération de code Outils

SIG

HYP

The Decoder·17 juin

Nvidia research shows robots that train themselves through AI coding agents

Des chercheurs de Nvidia, Carnegie Mellon et UC Berkeley utilisent des agents IA de codage pour enseigner aux robots la préhension dextère en conditions réelles. Une flotte de huit robots atteint 99% de succès sur des tâches complexes.

Agents IA Génération de code Robotique

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GLM-5.2 is a win for local AI

GLM-5.2 (744B) sous licence MIT représente une avancée pour l'IA locale malgré son empreinte massive. La communauté pourra distiller ses capacités de raisonnement dans des modèles 8B/70B, améliorant significativement les setups locaux.

Open source Fine-tuning Raisonnement

SIG

HYP

Reddit r/LocalLLaMA·17 juin

Headless screenshot loops let a local 30B agent finish a raytraced FPS demo in pure C

Un agent local Qwen 27B a complété une démo FPS raytraced en C pur en utilisant des boucles de screenshots headless pour déboguer visuellement. L'ajout d'un mode headless permettant à l'agent de capturer des frames et d'inspecter les résultats a transformé l'approche : le modèle a appris à automatiser le débogage visuel récursif.

Qwen Agents IA Génération de code

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> continuedev /</span> continue

Continue est un agent de codage open-source disponible sur GitHub Trending. Le projet propose une solution d'assistance au développement logiciel.

Agents IA Génération de code Open source

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> DeusData /</span> codebase-memory-mcp

Serveur MCP d'intelligence de code haute performance. Indexe les bases de code dans un graphe de connaissances persistant en millisecondes. Support de 158 langages, requêtes sub-ms, 99% moins de tokens. Binaire statique unique, zéro dépendance.

MCP Génération de code RAG

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Lampese /</span> codex-switcher

Lampese/codex-switcher est une application desktop pour gérer plusieurs comptes OpenAI Codex CLI. Outil open-source facilitant le basculement entre comptes.

OpenAI Génération de code Outils

SIG

HYP

GitHub Trending·17 juin

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> continuedev /</span> continue

Continue est un agent de codage open-source disponible sur GitHub Trending. Le projet propose une solution d'assistance au développement automatisée.

Agents IA Génération de code Open source

SIG

HYP

Latent Space·17 juin

[AINews] GLM-5.2: the top Frontend Coding model in the world, IndexShare for Speculative Decoding

GLM-5.2 devient le meilleur modèle open-source pour le code frontend. Zhipu AI annonce aussi IndexShare, une technique de décodage spéculatif pour accélérer l'inférence.

Génération de code Benchmarks Open source

SIG

HYP

arXiv cs.CL·17 juin

Self-Generated Error Training for Token Editing in Diffusion Language Models

Méthode d'entraînement pour améliorer l'édition de tokens dans les modèles de diffusion (LLaDA2.1). Résout le décalage entre l'entraînement sur corruptions aléatoires et l'inférence sur erreurs du modèle lui-même. Utilise une passe sans gradient suivie d'une supervision sur corruptions auto-générées via LoRA. Réduit l'intensité d'édition et les erreurs de transcription.

Génération de code Fine-tuning Raisonnement

SIG

HYP

arXiv cs.CL·17 juin

MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task

Le groupe MLLP-VRAIN participe à IWSLT 2026 en traduction simultanée parole-parole avec Parakeet et Qwen 3.5. Système en cascade utilisant des politiques adaptatives et RAG pour enrichir la génération. Amélioration de +5.82 XCOMET-XL sur En→De vs année précédente.

Qwen RAG Génération de code

SIG

HYP

arXiv cs.CL·17 juin

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

GameCraft-Bench évalue la capacité des agents de code à générer des jeux jouables end-to-end dans Godot. Le benchmark contient 140 tâches sur 15 familles de jeux. Les meilleurs agents atteignent seulement 41,46% de succès, révélant des difficultés à produire des jeux complets avec contenu suffisant et retours visuels cohérents.

Génération de code Agents IA Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

VoidPadding: Let [VOID] Handle Padding in Masked Diffusion Language Models so that [EOS] Can Focus on Semantic Termination

VoidPadding introduit un token [VOID] dédié au padding dans les modèles de diffusion masqués (MDLMs), libérant [EOS] pour la terminaison sémantique. Sur Dream-7B-Instruct, cela améliore les benchmarks de raisonnement mathématique et génération de code de +17.84 points vs baseline et +6.95 vs RainbowPadding, réduisant les NFE de 55.7%.

Génération de code Raisonnement Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

Discrete Autoregressive Transformer for Generative Mechanism Synthesis

Transformer autorégressif discret pour la synthèse de mécanismes. Modèle de séquence conditionnelle avec VAE latent et quantization de coordonnées en tokens. Entraîné sur >1M mécanismes avec distance Chamfer et DTW. Distance Chamfer moyenne 0.0132, DTW 0.153 sur tests.

Génération de code Benchmarks Papers

SIG

HYP

arXiv cs.LG·17 juin

Operator Boosting Produces Pareto-Efficient PDE Surrogates

Operator Boosting construit des surrogates compacts de réseaux de neurones pour résoudre les EDPs via apprentissage résiduel par étapes. Testé sur FNO, DeepONet et CNO sur 30 benchmarks (PDEBench, APEBench), la méthode réduit les paramètres de 72-95% tout en améliorant la précision sur 21 paires dataset-architecture et obtient des gains Pareto sur 7/10 benchmarks EDPs.

Papers Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·17 juin

Dissecting model behavior through agent trajectories

Étude de l'alignement harness-modèle via 138k trajectoires d'agents. Les auteurs introduisent Simple Strands Agent (SSA), un harness générique testant Claude, Gemini, GPT, Grok, Qwen sur SWE-Pro, SWE-Verified et Terminal-Bench-2. Au-delà des scores pass@1, l'analyse révèle des différences comportementales fines : fréquence d'édition, activité de test, transitions de phase.

Agents IA Benchmarks Génération de code

SIG

HYP

arXiv cs.AI·17 juin

Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns

SkillMigrator est un agent LLM qui apprend des compétences web réutilisables en les transférant entre sites via la correspondance de structure de mise en page plutôt que de références d'éléments spécifiques. Les compétences induites sont stockées comme des motifs d'interaction transférables (TIP). Sur WebArena et Mind2Web, SkillMigrator réduit le nombre d'actions LLM de 8-10% à taux de succès équivalent.

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.AI·17 juin

FllumaOne: A Code-Native Multimodal CAD Dataset with Executable Programs and Kernel-Validated Feature Histories

FllumaOne est un dataset CAD multimodal de 100 000 modèles générés par programmes Python exécutables dans Flluma (système CAD basé OpenCASCADE). Chaque échantillon aligne le programme avec un arbre de features, une représentation STEP, un nuage de points et des descriptions en langage naturel. Un baseline Qwen2.5-Coder-1.5B atteint 99.98% de validité syntaxe Python et 99.14% de validité export STEP.

Génération de code Benchmarks Vision

SIG

HYP

arXiv cs.AI·17 juin

LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings

LongWebBench est un benchmark évaluant la génération de pages web longues par des modèles vision-langage. Il contient 490 pages réelles pour l'évaluation structurelle et 507 tâches interactives sur 129 pages. Les expériences montrent que la fidélité structurelle se dégrade avec la longueur et que les générations visuellement plausibles échouent souvent à supporter les interactions multi-étapes.

Vision Benchmarks Agents IA

SIG

HYP

arXiv cs.AI·17 juin

PreAct: Computer-Using Agents that Get Faster on Repeated Tasks

PreAct compile les exécutions réussies d'agents informatiques en petits programmes à états finis, rejoués 8.5-13x plus vite sans appels LLM par étape. Un validateur indépendant vérifie chaque programme avant stockage. Sur trois benchmarks (mobile, desktop, web), cette vérification évite l'accumulation de programmes défaillants (+1.75-2.6 tâches).

Agents IA Génération de code Benchmarks

SIG

HYP

arXiv cs.CL·17 juin

Bridging Functional Correctness and Runtime Efficiency Gaps in LLM-Based Code Translation

SwiftTrans, un framework de traduction de code par LLM, combine exploration multi-perspective (MpTranslator avec apprentissage en contexte parallèle) et sélection consciente des différences (DiffSelector) pour améliorer à la fois la correction fonctionnelle et l'efficacité runtime. Évaluation sur CodeNet, F2SBench et SwiftBench.

Génération de code Prompt engineering Benchmarks

SIG

HYP

arXiv cs.LG·17 juin

When the Next Step Is Not One Step: Distribution-Aware Execution Modeling for Concurrent Go Programs

Modèle 7B fine-tuné pour prédire l'étape suivante dans des programmes Go concurrents en apprenant une distribution d'événements plutôt qu'une étiquette unique. Sur 798 prédictions issues de bugs réels (CockroachDB, Kubernetes, gRPC, etcd), atteint 36.2% de précision avec <1000 traces, surpassant Gemini 3.5 Flash zéro-shot (34.8%). Dataset, adapters et outils publiés.

Génération de code Benchmarks Fine-tuning

SIG

HYP

arXiv cs.AI·17 juin

DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL

DecoSearch est un framework sans entraînement pour la traduction texte-vers-SQL qui route les requêtes selon leur complexité. Un sélecteur de schéma élagué la base de données, un jugeur LLM décide si décomposition est nécessaire, et un DAG résout les sous-questions atomiques. Atteint 70,53% sur BIRD et 88,31% sur Spider avec DeepSeek, surpassant les baselines sans entraînement.

Génération de code Raisonnement RAG

SIG

HYP

Simon Willison·17 juin

<click-to-play> — a still that plays

Composant Web <click-to-play> qui transforme une image statique en bouton de lecture pour charger des GIF à la demande. Améliore les performances en évitant le chargement automatique des fichiers volumineux.

Outils Génération de code

SIG

HYP

Vercel AI Blog·17 juin

Introducing eve, an open-source agent framework

Vercel lance eve, un framework open-source pour construire et déployer des agents IA. Un agent minimal ne nécessite que deux fichiers (modèle + instructions). Ajout de tools/skills/channels par simple création de fichiers. Déploiement en production via vercel deploy, sans modification du code local.

Agents IA Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM-5.2 just dropped open weights and it already looks weirdly strong for coding

GLM-5.2 sort en poids ouverts avec licence MIT. Fenêtre de contexte 1M, deux modes de raisonnement, performances fortes en coding sur les arenas. Modèle open-source contrairement aux versions API-only.

Qwen Open source Génération de code

SIG

HYP

Reddit r/LocalLLaMA·16 juin

GLM 5.2 API is live, weights are on HF, and ollama has it already

GLM-5.2 est disponible en API ($1.4/M tokens input, $4.4/M output) et en poids open-source MIT sur HuggingFace. Ollama l'intègre déjà. Benchmarks : 81.0 Terminal-Bench 2.1, 62.1 SWE-bench Pro, 74.4 FrontierSWE. Contexte 1M, deux modes thinking (High/Max).

Open source Génération de code Benchmarks

SIG

HYP