arXiv cs.AI·19 mai 2026

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion

Signal

Hype

En 3 lignesOrthrus combine un LLM autorégressif et un modèle de diffusion via une architecture duale unifiée. Le framework ajoute un module léger à un Transformer gelé pour générer des tokens en parallèle tout en conservant la fidélité exacte du modèle autorégressif. Speedup jusqu'à 7.8x avec surcharge mémoire O(1).

Lire la source

Ton avis ?

Raisonnement Génération de code Infrastructure

Résumé généré par Claude — vérifié par l'humain

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion

Autres angles sur ce sujet