Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion
Signal
82
Hype
28
En 3 lignesOrthrus combine un LLM autorégressif et un modèle de diffusion via une architecture duale unifiée. Le framework ajoute un module léger à un Transformer gelé pour générer des tokens en parallèle tout en conservant la fidélité exacte du modèle autorégressif. Speedup jusqu'à 7.8x avec surcharge mémoire O(1).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain