Retour au feed
arXiv cs.AI·

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion

Signal
82
Hype
28
En 3 lignesOrthrus combine un LLM autorégressif et un modèle de diffusion via une architecture duale unifiée. Le framework ajoute un module léger à un Transformer gelé pour générer des tokens en parallèle tout en conservant la fidélité exacte du modèle autorégressif. Speedup jusqu'à 7.8x avec surcharge mémoire O(1).
Lire la source
Ton avis ?
RaisonnementGénération de codeInfrastructure

Résumé généré par Claude — vérifié par l'humain